当前位置: 首页 > 范文大全 > 优秀范文 >

图书评论特征抽取研究综述

发布时间:2022-04-14 08:44:05 | 浏览次数:

zoޛ)j馟iC8t޽8}t<]=_?}
t<]=^춶('qx(主题=“评论”或者题名=“评论”)并且(主题=“特征”或者题名=“特征”或者主题=“挖掘”或者题名=“挖掘”或者主题=“抽取”或者题名=“抽取”)时,检索到“评论特征抽取”相关文献4 166篇。但是图书评论领域得到的关注明显不足,当检索条件加上:并且(主题=“图书”或者题名=“图书”)时文献稀缺,仅检索到63篇文献,发展年度趋势见图1。

近年国内学者李光敏等[1]从产品特征频繁项、特征—意见共现关系、模型训练和显隐式特征匹配的角度分析了国内外产品评论特征抽取研究的进展和不足,指出语义表示、网络文本和隐性特征需要重点关注,但限于篇幅并未细分领域综述。

隨着大数据时代网络评论文本的大量涌现,图书评论特征抽取领域出现了新特点、新问题,这些关键问题本领域现有文献未能全部覆盖。为此本文利用文献检索顺查法和追溯法扩大文献研究范围,从中国知网和国外相关文献中,选择55篇有关“评论特征抽取”的代表文献,其中2010年前9篇,2010~2014年23篇,2015年以后23篇。国外文献32篇、国内文献23篇,其中图书评论领域文献17篇。在此基础上针对图书评论的特点,分别从特征聚类、语义表示和隐性特征3个方面重点论述与图书评论特征抽取相关的典型方法和关键问题,对国内外研究现状进行客观分析,对未来发展趋势做出展望,以期为进一步研究提供新的思路。

1 产品评论特征抽取

产品评论特征抽取的目标是从评论文本中抽取评价的具体对象,是细粒度观点挖掘和情感识别任务的基础性工作。随着自然语言处理技术的发展,机器学习方法有效改善了特征抽取模型的泛化能力。根据训练样本是否需要标注,特征抽取方法可分为有监督方法和无监督方法。

1.1 有监督方法

有监督方法将特征词抽取看作文本序列标注任务,基于训练数据与测试数据分布一致的假设,通过对训练集的学习建立模型实现对测试集的预测。有监督方法从标注数据中识别特征词的准确率较高,主要算法有隐马尔科夫、条件随机场、支持向量机、最大熵模型或决策树等。如Jin W等[2]用隐马尔科夫算法抽取产品显性特征词和观点词,鉴别特征词—观点词对进行观点词分类取得较好效果,但隐马尔科夫模型作为生成模型不适合处理内容丰富相互冗余的语料。条件随机场作为判别模型更适合处理这些语料,如Li F等[3]用Tree CRFs算法学习句法依存关系并利用Skip-chain CRFs算法克服长距离依存关系,将发现的语义关联作为输入信息抽取特征词;Hamdan H等[4]提取词根、词性、大小写等特征利用条件随机场抽取特征词。有监督方法的共性问题是人工标注语料成本高、主观性强,缺乏知识重组的过程,在复杂问题和大规模数据中的鲁棒性受限制。

推荐访问: 抽取 综述 特征 研究 图书
本文标题:图书评论特征抽取研究综述
链接地址:http://www.yzmjgc.com/youxiufanwen/2022/0414/43746.html

版权声明:
1.赢正文档网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《图书评论特征抽取研究综述》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

版权所有:赢正文档网 2010-2024 未经授权禁止复制或建立镜像[赢正文档网]所有资源完全免费共享

Powered by 赢正文档网 © All Rights Reserved.。粤ICP备19088565号