自然语言处理中的最大熵方法.ppt

上传人：本田雅阁

文档编号：2183030

上传时间：2019-02-26

格式：PPT

页数：38

大小：318.51KB

《自然语言处理中的最大熵方法.ppt》由会员分享，可在线阅读，更多相关《自然语言处理中的最大熵方法.ppt（38页珍藏版）》请在三一文库上搜索。

1、自然语言处理中的最大熵方法,马金山信息检索研究室 http:/,纲要,熵理论的发展信息熵最大熵理论最大熵理论的应用,什么是熵,什么是熵？没有什么问题在科学史的进程中曾被更为频繁地讨论过普里高津熵定律是自然界一切定律中的最高定律里夫金&霍华德,熵的提出,德国物理学家克劳修斯（Rudolph J.E clausius）于1865提出熵的概念其经典意义定义为： R表示可逆过程，即体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度。,熵原理的形象比喻,一滴墨水滴入一杯清水中，墨水扩散后均匀地分布在清水中比喻热力体系的自发过程总是趋于温度均匀分布，反之不行。,微观世界中熵

2、的含义,热力学定律都是对物质宏观性质进行考察得到的经验定律宏观物体是大量微观粒子构成的 1872年，波尔兹曼（LBoltzmann）指出熵是大量微观粒子的位置和速度的分布概率的函数，是描述系统中大量微观粒子的无序性的宏观参数熵值高意味着无序性强 !,熵增原理,一个孤立系统的熵，自发性地趋于极大，随着熵的增加，有序状态逐步变为混沌状态，不可能自发地产生新的有序结构。当熵处于最小值, 即能量集中程度最高、有效能量处于最大值时, 那么整个系统也处于最有序的状态,相反为最无序状态。熵增原理预示着自然界越变越无序,熵的普遍性,熵概念的泛化熵理论是存在问题的，需要发展和完善,熵与信息,1948

3、年电气工程师香农( Shannon)创立了信息论，将信息量与熵联系起来。他用非常简洁的数学公式定义了信息时代的基本概念：熵 H(p) = -p(x)logp(x) 单位：bits,通信中的熵,表示“是” 和 “否” 1 = 是 0 =否表示“是” 、“否”和“可能是” 11 =是 00 = 否 10(01) = 可能是一条消息的熵就是编码这条消息所需二进制位即比特的个数。,随机事件的熵,熵定量的描述事件的不确定性设随机变量，它有A1，A2，An共n个可能的结局，每个结局出现的机率分别为p1,p2 ，.，pn，则的不确定程度，即信息熵为: 熵越大，越不确定熵等于0，事件是确定的,例

4、子,抛硬币掷色子（32个面）不公平的硬币,熵的图形,信息熵的意义,信息熵概念为测试信息的多少找到了一个统一的科学定量计量方法，是信息论的基础。信息熵将数学方法和语言学相结合,最大熵理论,熵增原理在无外力作用下，事物总是朝着最混乱的方向发展事物是约束和自由的统一体事物总是在约束下争取最大的自由权，这其实也是自然界的根本原则。在已知条件下，熵最大的事物，最可能接近它的真实状态,最大熵原则下点的分布,对一随机过程，如果没有任何观测量，既没有任何约束，则解为均匀分布,最大熵原则下点的分布,最大熵原则下点的分布,最大熵原则下点的分布,选择最好的模型,研究某个随机事件，根据已知信息，预测其

5、未来行为。当无法获得随机事件的真实分布时，构造统计模型对随机事件进行模拟。满足已知信息要求的模型可能有多个。,基于最大熵原理选择模型,选择熵最大的模型 Jaynes证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势 Tribus证明，正态分布、伽玛分布、指数分布等，都是最大熵原理的特殊情况,基于最大熵的统计建模,特征空间的确定特征选择建立统计模型基于最大熵的统计建模即发现满足已知条件的熵最大的模型,基于最大熵的统计建模,已有特征 f1(x,y), f2(x,y), fn(x,y) 特征的经验概率：特征的期望概率：如果样本足够多，可信度高的特征的经验概率与真实概率

6、一致的由训练样本习得的模型,对可信度高的特征的估计应满足约束等式:,基于最大熵的统计建模,事件的熵计算模型的最大熵得其中,最大熵模型求解,参数估计 GIS算法(Generalized Iterative scaling) Darroch and Ratcliff,1972 IIS算法(Improved Iterative Scaling) Della Pietra 1995 Input: 特征函数特征分布 Output: 最优参数值最优模型,IIS算法,1 Start with for all 2 Do for each a Let be the solution to b Upd

7、ate the value of 3 Go to step 2 if not all have converged,词义消歧的例子,词义消歧确定多义词在一个句子中所表达的词义 “打”的语义：S1,S2,S3,S4 S1打人 S2打酱油 S3打球 S4打电话他打完篮球后给我打了个电话 ? ?,确定“打”的语义,没有任何先验知识概率分布： P(S1)= 0.25 P(S2)= 0.25 P(S3)= 0.25 P(S4)= 0.25 H(p)= -4 X (0.25 log20.25)=2 熵值最大，最合理,确定“打”的语义,先验知识: 取S1或S3的概率：0.6 取S2或S4的概率：0.4

8、概率分布： P(S1)= 0.3 P(S2)= 0.2 P(S3)= 0.3 P(S4)= 0.2 H(p)= -2 X (0.2 log20.2) -2 X (0.3 log20.3) 符合约束的分布中，该分布熵值最大，最合理,不存在没有约束的自由,他了那个坏人打=S1 他打了二两酒打=S2 他喜欢打篮球打=S3 他喜欢打电话打=S4 他用手机打我打=S1 他酒后打人打=S1 一些人在打球打=S3,知识的获取,统计这些先验知识（约束） (人，S1) (狗，S1) (酱油，S2) (酒，S2) (篮球，S3) (冰球，S3) (电话，S4) (手机，S4) (手机，S1) (酒

9、，S1) (人，S3),知识的形式化表示,在这些约束下，计算P(打= Si)，并满足模型的熵最大引入特征函数 1 if y=S3 and x=篮球 0 otherwise,模型的建立,特征选择在所有的特征中，选择最有代表性的特征，构造约束集合参数估计应用IIS算法，计算出每个特征对应的参数值,特征选择(1),最简单的方法：选择出现次数大于n的特征 For example: (Adwait Ratnaparkhi 1999) Discard features that occur less than 5 times 代价最小,特征选择(2),原子特征算法(Basic Feature S

10、election ) 1 特征集合S=0 2 任取一特征加入集合中 3 调用IIS，确定 4 在该约束集合下，计算熵的增量 5 选择使熵值增加最大的特征加到S中 6 调用IIS，计算在此特征集下的 7 执行2,特征选择（3）,近似增益算法(Approximate Gains) 已有特征对应参数增加特征对应的参数则增加的特征只影响当前参数，不变模型的形式:,Reference,A.Berger S.D.Pietra V.D.Pietra A maximum entropy approach to natural language processing Computational

11、linguistics 1996,V22(1):39-71 S.D.Pietra, V.D.Pietra and J.Lafferty Inducing features of random fields IEEE Transactions on Pattern Analysis and Machine Intelligence 1997,V19(4): 380-393 R. Rosenfeld Adaptive statistical language modeling: A Maximum Entropy Approach Phd thesis CMU-CS-94,1994,Thanks,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 自然语言处理中的最大方法

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：自然语言处理中的最大熵方法.ppt
链接地址：https://www.31doc.com/p-2183030.html