图书评论特征抽取研究综述
主题=“评论”或者题名=“评论”)并且(主题=“特征”或者题名=“特征”或者主题=“挖掘”或者题名=“挖掘”或者主题=“抽取”或者题名=“抽取”)时,检索到“评论特征抽取”相关文献4 166篇。但是图书评论领域得到的关注明显不足,当检索条件加上:并且(主题=“图书”或者题名=“图书”)时文献稀缺,仅检索到63篇文献,发展年度趋势见图1。
近年国内学者李光敏等[1]从产品特征频繁项、特征—意见共现关系、模型训练和显隐式特征匹配的角度分析了国内外产品评论特征抽取研究的进展和不足,指出语义表示、网络文本和隐性特征需要重点关注,但限于篇幅并未细分领域综述。
隨着大数据时代网络评论文本的大量涌现,图书评论特征抽取领域出现了新特点、新问题,这些关键问题本领域现有文献未能全部覆盖。为此本文利用文献检索顺查法和追溯法扩大文献研究范围,从中国知网和国外相关文献中,选择55篇有关“评论特征抽取”的代表文献,其中2010年前9篇,2010~2014年23篇,2015年以后23篇。国外文献32篇、国内文献23篇,其中图书评论领域文献17篇。在此基础上针对图书评论的特点,分别从特征聚类、语义表示和隐性特征3个方面重点论述与图书评论特征抽取相关的典型方法和关键问题,对国内外研究现状进行客观分析,对未来发展趋势做出展望,以期为进一步研究提供新的思路。
1 产品评论特征抽取
产品评论特征抽取的目标是从评论文本中抽取评价的具体对象,是细粒度观点挖掘和情感识别任务的基础性工作。随着自然语言处理技术的发展,机器学习方法有效改善了特征抽取模型的泛化能力。根据训练样本是否需要标注,特征抽取方法可分为有监督方法和无监督方法。
1.1 有监督方法
有监督方法将特征词抽取看作文本序列标注任务,基于训练数据与测试数据分布一致的假设,通过对训练集的学习建立模型实现对测试集的预测。有监督方法从标注数据中识别特征词的准确率较高,主要算法有隐马尔科夫、条件随机场、支持向量机、最大熵模型或决策树等。如Jin W等[2]用隐马尔科夫算法抽取产品显性特征词和观点词,鉴别特征词—观点词对进行观点词分类取得较好效果,但隐马尔科夫模型作为生成模型不适合处理内容丰富相互冗余的语料。条件随机场作为判别模型更适合处理这些语料,如Li F等[3]用Tree CRFs算法学习句法依存关系并利用Skip-chain CRFs算法克服长距离依存关系,将发现的语义关联作为输入信息抽取特征词;Hamdan H等[4]提取词根、词性、大小写等特征利用条件随机场抽取特征词。有监督方法的共性问题是人工标注语料成本高、主观性强,缺乏知识重组的过程,在复杂问题和大规模数据中的鲁棒性受限制。
推荐访问: 抽取 综述 特征 研究 图书版权声明:
1.赢正文档网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《图书评论特征抽取研究综述》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
本栏目阅读排行
- 1“圆”审美视域下壮族民间舞蹈“圆”美探索
- 2党员各种谈心谈话记录 学生党员一对一谈心谈话记录
- 3发展具有中国特色、世界水平的现代教育
- 4小学疫情防控应急预案 小学疫情防控工作方案和应急预案
- 5中南海里的“除四害”\“大炼钢”行动
- 6浅谈高原之宝牦牛奶制品的营销策略
- 7202X年全员新冠病毒核酸检测工作应急预案三篇 关于全员核酸检测应急准备情况的报告
- 8党支部会议程序 党组织开会
- 9四个意识方面个人存在问题清单及整改措施 能力作风建设个人问题清单及整改措施
- 102020年新冠肺炎疫情防控排查工作方案例文稿 制定新冠肺炎疫情防控工作方案
- 11支部书记与党员谈心谈话活动记录表 支部书记谈心谈话范文
- 12美国海军航天遥感技术述评