欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
    分享到微信 分享到微博 分享到QQ空间

    南京大学PPT模板.ppt.ppt

    • 资源ID:62277       资源大小:287KB        全文页数:15页
    • 资源格式: PPT        下载积分:5
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录 微博登录
    二维码
    微信扫一扫登录
    下载资源需要5
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    南京大学PPT模板.ppt.ppt

    1、隐马尔可夫模型(隐马尔可夫模型(HMM)在中文词性标注中的应用研究在中文词性标注中的应用研究答辩人:答辩人:指导老师:指导老师:7/9/20251n词性标注概述词性标注概述n隐马尔可夫模型概述隐马尔可夫模型概述n实验介绍实验介绍n实验结果和分析实验结果和分析n总结总结 提提 纲纲7/9/20252词性标注概述词性标注概述n词性标注的目标和过程词性标注的目标和过程目标:目标:为句子中的每个词都标上一个合适的词性过程:过程:n原文:这件事情在理论界、经济界引起了很大反响。n分词后:这 件 事情 在 理论界、经济界 引起 了 很 大 反响。n词性标注:这/r 件/q 事情/n 在/p 理论界/n 、

    2、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/wn词性标注中的信息源词性标注中的信息源邻接词的词性信息邻接词的词性信息词本身提供的信息词本身提供的信息7/9/20253词性标注概述词性标注概述(cont.)n词性标注的主要方法词性标注的主要方法基于规则的方法(基于规则的方法(Rule-based)基于统计的方法(基于统计的方法(Statistics-based)基于转换的方法(基于转换的方法(Transformation-based)n词性标注准确率词性标注准确率训练数据量训练数据量 标注集合标注集合 语料库差别语料库差别 未登录词未登录词7/9/20254隐马尔可夫模型(

    3、隐马尔可夫模型(HMM)概述概述nHMM的两个假设:的两个假设:有限视野假设 P(Ot+1=Sk|O1,Ot)=P(Ot+1=Sk|Ot)时间不变性假设 P(Ot+1=Sk|Ot)=P(O2=Sk|O1)7/9/20255隐马尔可夫模型概述隐马尔可夫模型概述(cont.)nHMM模型:模型:=(A,B,)S是状态集:S=(S1,S2,SN)V是观察集:V=(V1,V2,VM)状态序列:Q=q1q2qT(隐藏),观察序列:O=o1o2oT(可见)A是状态转移概率分布:A=aij,aij=P(qt=sj|qt-1=si)(满足假设1)B是观察值生成概率分布:B=bj(vk),bj(vk)=P(ot

    4、vk|qt=si)(满足假设2)初始观察值概率分布:=i,i=P(q1=si)7/9/20256隐马尔可夫模型概述隐马尔可夫模型概述(cont.)n隐马尔可夫模型的基本问题隐马尔可夫模型的基本问题给定一个模型=(A,B,),怎样有效的计算某个观测序列发生的概率,即P(O|)。(模型拟合程度)给定观测序列O和模型,怎样选择一个状态序列q1q2qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程)给定观测序列O,以及通过改变模型=(A,B,)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)7/9/20257隐马尔可夫模型概述隐马尔可夫模型概

    5、述(cont.)nViterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj7/9/20258实验介绍实验介绍n实验语料库简介实验语料库简介人民日报标注语料库 199801199806共含有标注42个,单词130274个n实验建模实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率 例,P(我|“代词”):初始概率7/9/20259实验介绍实验介绍(cont.)n模型训练模型训练最大似然估计法最大似然估计法 n实验相关问题实验相关问题数据稀疏问题数据稀疏问题n稀疏矩

    6、阵未登录词和概率平滑未登录词和概率平滑n留出相应的概率空间7/9/202510实验结果和分析实验结果和分析n整体实验整体实验用用199801199805作为训练语料库,标注作为训练语料库,标注199806的的结果如下:结果如下:n待标注总数:1,244,415n正确标注数:1,167,314n错误标注数:77,101n标注正确率:0.938042n未登录词数:17,071部分标注的结果:部分标注的结果:标注 正确数 错误数 标注准确率nb 8568675 0.92697nc 2753017830.93917nd 5174430480.944377/9/202511实验结果和分析实验结果和分析(

    7、cont.)nAg 246158 0.60891nan 2222 1142 0.66052nDg 50 52 0.49020ne 18 8 0.69231结论:训练库中标注出现次数对结果有很大影响结论:训练库中标注出现次数对结果有很大影响n小样本实验小样本实验然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 7/9/202512实验结果和分析实验结果和分析(cont.)错误:错误:“由于”的介词词性

    8、p错误标成了连词词性c。分析:分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下:nw:-11.3986nw-p:-2.5839 w-c:-2.8842 w-d:-2.6353np-由于:-5.3571 c-由于:-4.6158 d-由于:-11.7821np:-19.3397 c:-18.8987 d:-25.8160结论结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。7/9/202513总总 结结n总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。n长距离依赖问题和偏置问题。n目前在研究中的最大熵隐马模型(MEMMs),条件随机场模型(CRFs)等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。7/9/202514谢谢!7/9/202515


    注意事项

    本文(南京大学PPT模板.ppt.ppt)为本站会员(飞猪)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!




    宁ICP备18001539号-1

    三一文库
    收起
    展开