情感分析模型综述.pdf
《情感分析模型综述.pdf》由会员分享,可在线阅读,更多相关《情感分析模型综述.pdf(10页珍藏版)》请在三一文库上搜索。
1、Scientific Journal of Psychology Xin Li Xue 22 | SJP July 2012 Vol.1 No.2 PP.22-31 www.sj-p.org 2012 American V-King Scientific Publishing, LTD 情感分析模型综述 * 董喜双,邹启波,关毅* 哈尔滨工业大学,黑龙江 哈尔滨 150001 摘 要;对情感分析模型的研究现状与进展进行了总结,包括三个部分:首先介绍情感分析相关概念,包括情感分析形式化定义 以及情感极性和情感强度;然后将情感分析归纳为 3 个主要层级模型,即词级情感分析模型、句级情感分析模型和篇
2、章级情感分 析模型。针对不同层级,重点介绍基于无监督、有监督和半监督学习方法的情感分析模型,并对模型的优缺点进行了详细总结; 最后介绍了情感分析模型在不同领域的应用,包括问答系统、产品推荐和舆情分析等。 关键词;情感分析;情感极性;情感强度;机器学习 A Survey on Sentiment Analysis Models Xishuang Dong, Qibo Zou, Yi Guan Harbin Institute of Technology, Harbin, China, 150001 Email: ; ; Abstract:This paper presents an overv
3、iew of sentiment analysis models. It includes three parts: related concepts including the definition of sentiment analysis and introduction on sentiment polarity and strength; a summary of Word-level Sentiment Analysis Models, Sentence-level Sentiment Analysis Models, and Document-level Sentiment An
4、alysis Models, which contain unsupervised based models, supervised based models, semi-supervised based models and their advantages and disadvantages; model applications such as the question and answer system, the production recommendation system, and the public opinion analysis system, respectively.
5、 Key words:Sentiment Analysis; Sentiment Polarity; Sentiment Strength; Machine Learning 引言 心理学是研究人的心理活动及其发生、发展规律的科学1。人的心理活动包括心理过程和个性,其中心理过程 分为认识过程、情感过程和意志过程三个方面。认识过程是指人的心理由表象到本质地反映客观事物心理活动;情 感过程是指人与客观事物相互作用而产生的心理活动,包括喜、怒、哀、乐、憎、惧等情感;意志过程是指人在目 标驱使下,克服困难并力求实现目标的心理活动。人们主要通过观察法、实验法、调查法和测验法研究人的情感过 程,但只是定性
6、的分析人的情感过程,而没有定量的对人的情感过程进行度量。本文总结了计算语言学领域中情感 分析模型的相关研究,详细分析了从定量的角度度量文 1本中情感的模型优缺点。 计算语言学中,情感分析指判定文本所持有情感(或观点、态度)的极性和强度的过程2。根据文本粒度不同, 情感性分析主要分为三个方面的研究内容:词级情感分析(Word-level Sentiment Analysis,WSA) 、句级情感分析 (Sentence-level Sentiment Analysis,SSA)和篇章级情感分析(Document-level Sentiment Analysis,DSA)。词级情感分 析主要包括构
7、建情感词典、识别候选词和判断候选词情感极性与强度3。情感词典构建首先人工收集种子情感词, 然后采用机器学习方法扩充种子情感词构建情感词典。在识别候选词时,采用统计与规则相结合方法实现,例如利 用词汇共现关系识别候选词,并且根据连词规则进一步精确识别候选词。在识别候选词的基础上,采用无监督、有 监督和半监督方式判定极性和强度。句级情感分析指判断句子的情感极性和强度34。其相关过程包括:识别情感 *基金项目:国家自然基金“面向语句间相似度计算基于词主体自治学习的强化学习机制研究” ,项目编号:60975077;国家自然基金 “非常规突发事件网络舆情分析方法和预警机制研究” ,项目编号 909240
8、15。 Xin Li Xue Scientific Journal of Psychology SJP July 2012 Vol.1 No.2PP.22-31 www.sj-p.org 2012 American V-King Scientific Publishing, LTD | 23 词、分析句子结构以及判别情感极性和强度。基于无监督的句级情感分析根据句子中情感词的极性和强度累加值确 定情感极性与强度。基于有监督的情感句分类是主流模型,采用的分类模型包括支持向量机(Support Vector Machine,SVM)、最大熵(Maximum Entropy,ME)以及条件随机场(Co
9、nditional Random Fields,CRFs)等;篇章级 情感分析指识别篇章对某一事物的情感极性和强度2。其相关过程包括:情感句分析、篇章级情感特征提取以及构 建篇章级情感分类器。基于无监督的篇章级情感分析模型主要根据情感词典识别情感词,然后通过累加情感词的情 感极性和强度判别篇章情感极性和强度;基于有监督的篇章情感分析主要通过提取情感特征,进而构建情感分类器 来预测篇章情感极性。 情感分析不管在科学研究还是在商业应用都具有重要价值。情感分析涉及计算语言学、数据挖掘以及机器学习 等方面的基础研究,处在不同学科的交叉点,因而研究情感分析可以促进不同学科的研究进展,具有重要的科学研 究
10、价值;其次,采用情感分析技术从海量数据中提取情感信息,将这些信息应用在不同领域提高服务质量,例如: 网络信息安全中的不良信息过滤、电子商务中的产品推荐、搜索引擎中的个性化检索以及社交网络中的用户兴趣发 掘等。 本文的组织结构如下:第二部分介绍情感分析的形式化定义以及相关要素;第三部分总结词级情感分析、句级 情感分析和篇章级情感分析的相关模型及其优缺点;第四部分从问答系统、产品推荐以及舆情分析阐述情感分析技 术在不同领域的应用;最后总结现有模型研究并对未来研究给予展望。为了更好的理解情感分析模型,首先介绍情 感分析涉及的相关概念。 1 相关概念 给定文本 D(词汇、句子或篇章)和情感类别集合 n
11、 ccccC 321 ,,情感分析是将文本映射到已有的情感 类别中,该映射是一一映射,如式(1)所示: CDf: (1) 其中,情感类别也称情感标签(Sentiment Labels) ,n 表示情感类别数,f是情感极性判定函数,它取决于情 感分析采用的具体方法。 情感分析涉及两个重要元素:情感极性和情感强度。情感极性是指文本对应的情感类别,情感强度是对文本表 达情感强弱的定量描述。文本情感极性通常划分为褒义(Positive)、贬义(Negative)和中性(Neutral)。此外对于具体 应用,单纯的褒贬极性分类无法满足需求,还需要区分文本的情感强弱程度,例如:电子商务中的产品推荐需要根
12、据评价为产品划定等级,这就需要了解情感极性以及定量分析情感强度。在了解情感分析的定义及相关要素后,下 面详细介绍情感分析相关模型。 2 情感分析模型 2.1 词级情感分析模型 词级情感分析是句级情感分析和篇章级情感分析基础。基于无监督的词级情感分析主要是通过构建种子词集 合,然后通过计算种子词和候选词之间的语义相似性判断情感极性和强度。基于有监督的词级情感分析首先提取候 选词的情感特征,包括同义词、反义词、对义词和词性等,然后训练情感词分类模型,最后预测候选词的极性和强 度。基于半监督的词级情感分析借助已有标注语料,并不断从预测集合中抽取置信度高的样本扩充训练集合,提高 情感词预测性能。 2.
13、1.1 基于无监督的词级情感分析模型 宋晓雷、王素格和李红霞等5提出两种基于概率潜在语义分析的情感词分析模型。模型一:首先借助概率潜在 语义分析构建候选词和种子词之间的相似度矩阵,然后利用投票法决定其情感极性,即若候选词与种子词中积极词 汇相似的数量多,则该词是积极极性,反之亦然;模型二:利用概率潜在语义分析获取候选词的语义聚类,然后借 Scientific Journal of Psychology Xin Li Xue 24 | SJP July 2012 Vol.1 No.2 PP.22-31 www.sj-p.org 2012 American V-King Scientific Pu
14、blishing, LTD 鉴基于同义词的词汇情感倾向判别方法判断候选词的情感倾向。该模型不借助情感语义资源实现词汇极性判断,但 是数据稀疏影响相似度度量,进而影响词汇情感极性判断。Y. Wu 和 M. We6将研究焦点对准上下文相关的情感形 容词极性判断问题,提出将该问题转换为其修饰的名词情感极性分析,并使用基于模式和基于字符的方法来推断该 名词的情感极性。基于模式的方法通过构造模板并借助搜索引擎分析词汇之间的共现数确定名词的情感极性;基于 字符的方法是在语料上通过计算名词和情感词的点互信息(Pointwise Mutual Information,PMI)判断名词的情感极 性,若名词与积极
15、词汇的 PMI 值大于与消极词汇的 PMI 值,则为积极名词。此方法考虑到了形容词因为修饰对象 不同而具有不同的情感倾向,但是需要编写规则模板以及借助搜索引擎来判断词的情感倾向。A. Hassan 和 D. Radev7提出了基于马尔科夫随机游走模型的情感词分析方法。首先构建种子词集合,通过语义相似构建候选词和 种子词网络,然后通过马尔科夫随机游走模型判断候选词的情感极性。该方法融入了词汇之间的语义关系,但是需 要构建种子词的集合,并且依赖语义资源(如 WordNet)构建候选词和种子词网络。 2.1.2 基于有监督的词级情感分析模型 基于有监督的情感词分析模型流程如图 1 所示: 测试语料测
16、试语料 分词分词、词性标词性标 注注、命名体识命名体识 别别 特征获取特征获取(词性特词性特 征征、句型特征句型特征、字特字特 征征) 训练词训练词(部分情部分情 感词典中词感词典中词) 词性过滤获得词性过滤获得 候选情感词候选情感词 特征获取特征获取(词性特征词性特征、 句型特征句型特征、字特征字特征) 训练情感词分类器训练情感词分类器 应用情感词分类应用情感词分类 器预测情感类别器预测情感类别 候选词情候选词情 感类别感类别 训练训练 测试测试 分词分词、词性标注词性标注、命命 名体识别名体识别 训练语料训练语料 图 1 识别情感词流程图 首先对训练语料进行预处理(分词、词性标注和命名体识
17、别) ,提取情感特征,训练情感词分类器,然后预测 候选词情感极性。董喜双、邹启波和关毅等8使用 HowNet 扩展同义词作为特征,并通过最大熵模型来预测候选词 的情感极性,然后采用最小割模型来优化极性判定结果。该方法借助词汇之间的相互关系来优化结果,但由于最小 割解的不唯一性,难以确定最优解。D. Das 和 S. Bandyopadhyay9采用 CRFs 模型预测词汇情感极性,采用的特征 包括:词性、情感词、叠字、术语或外文、特殊标点符号和句型特征(否定句、情感句和问句)等,但训练时间长。 2.1.3 基于半监督的词级情感分析模型 D. Rao 和 D. Ravichandran10对比了
18、三种半监督词级情感分析模型,分别是基于最小割的词级情感分析模型、 基于随机化最小割的词级情感分析模型11、以及基于标签传播(Label Propagation)的词级情感分析模型12,进而提 出了基于词汇之间的同义关系和上下位关系的标签传播模型,完善了原有的词汇网络,提高了词汇情感极性预测精 度。作者在法语和北印度语语料上验证该方法的有效性。 2.2 句级情感分析模型 句级情感分析是处于情感分析中间层,可以作为篇章级情感分析的基础。基于无监督的句级情感分析主要通过 词汇之间的极性和强度累加确定句子情感极性和强度。基于有监督的句级情感分析首先提取候选句子的情感特征, Xin Li Xue Sci
19、entific Journal of Psychology SJP July 2012 Vol.1 No.2PP.22-31 www.sj-p.org 2012 American V-King Scientific Publishing, LTD | 25 包括情感词、词序列和句型等,然后训练情感句分类模型,最后预测候选句的极性和强度。对于半监督的句级情感 分析,我们重点介绍基于短语树分析模型。 2.2.1 基于无监督的句级情感分析模型 G. Fu 和 X. Wang13提出基于模糊集的情感句分析模型。首先根据从细到粗的策略(Fine-to-coarse Strategy)估 计句子的情感强度
20、,具体步骤:首先构建情感词典,词典中每一个词都赋予情感强度值,然后获取句子的情感词和 情感短语,最后累加句子情感词和情感短语的情感强度计算句子情感强度,以及判定情感极性;然后基于模糊分布 构建三个模糊集隶属函数,分别度量句子情感极性(积极、消极和中性)的隶属程度,最后通过最大隶属原则来判 断句子的情感极性。该方法实现对情感强度的模糊性进行建模,但情感词可能会因为语境不同而呈现不同的极性, 无法准确判定。A. Meena,T. Prabhakar 和 G. Amati 等14重点考虑了连词对句子情感极性分析的影响,结合短语和 连词分析句子情感极性。但系统依赖人工构建情感词典,并且需要人工构建连词
21、规则,不具有领域适应能力。 2.2.2 基于有监督的句级情感分析模型 基于有监督的情感词分析流程如图2所示: 测试语料测试语料 分句分句、情感句情感句 过滤过滤 特征获取特征获取(情感词特征情感词特征、词序列词序列 特征特征、句型特征句型特征) 特征获取特征获取(情感词特征情感词特征、词序词序 列特征列特征、句型特征句型特征) 训练情感句分类器训练情感句分类器 应用情感句分类应用情感句分类 器预测情感类别器预测情感类别 情感句情感句 类别类别 训练训练 测试测试 分句分句、情感句过滤情感句过滤 训练语料训练语料 图 2 情感句分析流程图 首先构建情感句分类器,对训练语料进行预处理(分词、词性标
22、注、命名体识别以及分句等) ,进而提取情感 特征,训练情感分类器,然后预测句子情感极性。H. Guo,H. Zhu,Z. Guo 和 Z. Su15采用无监督方法从无标注的 语料中抽取各种领域专属的多级潜在情感线索,进而提出句子情感分析的领域适应模型。该模型的基本流程: (1) 构建源领域和目标领域的产品特征之间的潜在关系; (2)构建目标领域情感词典; (3)利用目标领域情感词典获取 目标领域多级情感线索; (4)使用多级情感线索调节源领域分类器适应目标领域,即根据目标领域多级情感线索重 新训练分类器。多级潜在情感线索包括产品特征的潜在关系、领域专属和通用的情感线索。具体包括:高频词特征 和
23、一般的情感特征(情感词、情感词数量、否定词或否定标记、领域专属情感词、领域专属情感词数量和情感词分 布) 。R. Xia 和 C. Zong16提出抽取词汇的共现关系特征构建句子情感分类器。作者提出两种快速获取词汇共现关系 特征的方法:快速互信息(Fast Mutual Information, FMI)和快速信息增益 (Fast Information Gain,FIG)。假设词汇 共现关系之间相互独立,那么两个共现词w和s与类别c的互信息),(),(),(csIcwIcwsI,同理这两个词的信 息增益)()()(sGSwGSwsGS。 该方法降低了计算复杂度, 并且通过降维处理数据稀疏问题
24、。 B. Wei 和 C. Pal17 将研究焦点对准跨领域情感句分析, 并借助机器翻译技术和结构对应学习 (Structural Correspondence Learning, SCL) 模型处理情感句的领域适应问题;为了减小机器翻译引入的噪声信息,只使用翻译结果的关键部分并且使用结构对 应学习方法来寻找两种语言共享信息,但是依赖于机器翻译技术。D. Davidov,O. Tsur 和 A. Rappoport18采用 K- Scientific Journal of Psychology Xin Li Xue 26 | SJP July 2012 Vol.1 No.2 PP.22-31
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 情感 分析 模型 综述
链接地址:https://www.31doc.com/p-5185084.html