课件生活中的数学创新项目.ppt
《课件生活中的数学创新项目.ppt》由会员分享,可在线阅读,更多相关《课件生活中的数学创新项目.ppt(58页珍藏版)》请在三一文库上搜索。
1、生活中的数学创新项目,报告人 孙振龙 2013年7月10日,网络(信息),创新?,互联网的文本数据挖掘,问题:用尽可能简单的知识和方法来分析挖掘文本,进而找出有用的信息关联,现况:传统的词库,语义分析等,已结婚的和尚未结婚的青年都要实行计划生育,已结婚的和尚未结婚的青年,已结婚的和尚未结婚的青年,现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领
2、域都在集中攻克这一难关。自动发现新词成为了关键的环节。,挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?,不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,找出新词。,如何算一个词?,标准? 文本片段出现的次数是否足够多。,数据源:人人网 2011 年 12 月前半个月部分用户的状态,“的电影”出现了 389 次,“电影院”只出现了 175
3、次,标准1 词的内部凝固程度。,数据源:人人网 2011 年 12 月前半个月部分用户的状态,2400 万字的数据中,“电影”一共出现了 2774 次,出现的概率约为 0.000113 。“院”字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 0.0001969 ,约为 2.223 10-8 次方。但事实上,“电影院”在语料中一共出现了 175 次,出现概率约为 7.183 10-6 次方,是预测值的 300 多倍。,标准1 词的内部凝固程度。,数据源:人人网 2011 年 12 月前半个月部分用户的状
4、态,类似地,统计可得“的”字的出现概率约为 0.0166 ,因而“的”和“电影”随机组合到了一起的理论概率值为 0.0166 0.000113 ,约为 1.875 10-6 ,这与“的电影”出现的真实概率很接近真实概率约为 1.6 10-5 次方,是预测值的 8.5 倍。计算结果表明,“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。,作为一个无知识库的抽词程序,我们并不知道“电影院”是“电影”加“院”得来的,也并不知道“的电影”是“的”加上“电影”得来的。错误的切分方法会过高地估计该片段的凝合程度。如果我们把“电影院”看作是“电”加“影院”所得
5、,由此得到的凝合程度会更高一些。因此,为了算出一个文本片段的凝合程度,我们需要枚举它的凝合方式这个文本片段是由哪两部分组合而来的。,令 p(x) 为文本片段 x 在整个语料中出现的概率,那么我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) p(影院) 比值和 p(电影院) 与 p(电影) p(院) 的比值中的较小值,“的电影”的凝合程度则是 p(的电影) 分别除以 p(的) p(电影) 和 p(的电) p(影) 所得的商的较小值。,可以想到,凝合程度最高的文本片段就是诸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之类的词了,这些词里的每一个字几乎总是会和另一个字同时出现,从不
6、在其他场合中使用。,标准2 词的外部的表现。,考虑“被子”和“辈子”这两个片段。我们可以说“买被子”、“盖被子”、“进被子”、“好被子”、“这被子”等等,在“被子”前面加各种字;但“辈子”的用法却非常固定,除了“一辈子”、“这辈子”、“上辈子”、“下辈子”,基本上“辈子”前面不能加别的字了。“辈子”这个文本片段左边可以出现的字太有限,以至于直觉上我们可能会认为,“辈子”并不单独成词,真正成词的其实是“一辈子”、“这辈子”之类的整体。,标准2 词的外部的表现。,文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常
7、丰富的左邻字集合和右邻字集合。,Link:信息熵,“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 - log(p) 。 p 越小,你得到的信息量就越大。,一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投掷的结果是 1 时可能并不会那么吃惊,它给你带来的信息量是 - log(1/2) ,约为 0.693 。知道投掷结果是 2 ,给你带来的信息量则是 - log(1/3) 1.0986 。知道投掷结果是 3 ,给你带来的信息量则有 - log
8、(1/6) 1.79 。但是,你只有 1/2 的机会得到 0.693 的信息量,只有 1/3 的机会得到 1.0986 的信息量,只有 1/6 的机会得到 1.79 的信息量,因而平均情况下你会得到 0.693/2 + 1.0986/3 + 1.79/6 1.0114 的信息量。这个 1.0114 就是那颗骰子的信息熵。,Link:信息熵,“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 - log(p) 。 p 越小,你得到的信息量就越大。,现在,假如某颗骰子有 100 个
9、面,其中 99 个面都是 1 ,只有一个面上写的 2 。知道骰子的抛掷结果是 2 会给你带来一个巨大无比的信息量,它等于 - log(1/100) ,约为 4.605 ;但你只有百分之一的概率获取到这么大的信息量,其他情况下你只能得到 - log(99/100) 0.01005 的信息量。平均情况下,你只能获得 0.056 的信息量,这就是这颗骰子的信息熵。,Link:信息熵,“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 - log(p) 。 p 越小,你得到的信息量就越
10、大。,一个最极端的情况:如果一颗骰子的六个面都是 1 ,投掷它不会给你带来任何信息,它的信息熵为 - log(1) = 0 。什么时候信息熵会更大呢?,信息熵直观地反映了 一个事件的结果有多么的随机,标准2 词的外部的表现。,我们用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机。,吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮,“葡萄”:4次,左邻字: 吃, 吐, 吃, 吐,右邻字:不, 皮, 倒, 皮,左邻字的信息熵= - (1/2) log(1/2) - (1/2) log(1/2) 0.693,右邻字的信息熵= - (1/2) log(1/2) - (1/4) log(1/4) - (1/
11、4) log(1/4) 1.04,“被子”: 956 次,右邻字集合的信息熵3.87404,“辈子”: 2330 次,右邻字集合的信息熵4.11644,“被子”的左邻字用例非常丰富:用得最多的是“晒被子”,它一共出现了 162 次;其次是“的被子”,出现了 85 次;接下来分别是“条被子”、“在被子”、“床被子”,分别出现了 69 次、 64 次和 52 次;当然,还有“叠被子”、“盖被子”、“加被子”、“新被子”、“掀被子”、“收被子”、“薄被子”、“踢被子”、“抢被子”等 100 多种不同的用法构成的长尾所有左邻字的信息熵为 3.67453,“辈子”的左邻字就很可怜了, 2330 个“辈子
12、”中有 1276 个是“一辈子”,有 596 个“这辈子”,有 235 个“下辈子”,有 149 个“上辈子”,有 32 个“半辈子”,有 10 个“八辈子”,有 7 个“几辈子”,有 6 个“哪辈子”,以及“n 辈子”、“两辈子”等 13 种更罕见的用法。所有左邻字的信息熵仅为 1.25963 。,“下子”则是更典型的例子, 310 个“下子”的用例中有 294 个出自“一下子”, 5 个出自“两下子”, 5 个出自“这下子”,其余的都是只出现过一次的罕见用法。事实上,“下子”的左邻字信息熵仅为 0.294421 ,我们不应该把它看作一个能灵活运用的词。,一些文本片段的左邻字没啥问题,右邻字
13、用例却非常贫乏,例如“交响”、“后遗”、“鹅卵”等,把它们看作单独的词似乎也不太合适。 我们不妨就把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。,文本片段的凝固程度和自由程度,两种判断标准缺一不可。只看凝固程度的话,程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;只看自由程度的话,程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来,因为它的左右邻字都太丰富了。,怎么用?,找出候选词,我们把文本中出现过的所有长度不超过 d 的子串都当作潜在的词(即候选词,其中 d 为自己设定的候选词长度上限),再为出
14、现频数、凝固程度和自由程度各设定一个阈值,然后只需要提取出所有满足阈值要求的候选词即可。为了提高效率,我们可以把语料全文视作一整个字符串,并对该字符串的所有后缀按字典序排序。,四是四十是十十四是十四四十是四十,十 十十四是十四四十是四十 十是十十四是十四四十是四十 十是四十 十四是十四四十是四十 十四四十是四十 是十十四是十四四十是四十 是十四四十是四十 是四十 是四十是十十四是十四四十是四十 四十 四十是十十四是十四四十是四十 四十是四十 四是十四四十是四十 四是四十是十十四是十四四十是四十 四四十是四十,优势,相同的候选词都集中在了一起,从头到尾扫描一遍便能算出各个候选词的频数和右邻字信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 课件 生活 中的 数学 创新 项目
链接地址:https://www.31doc.com/p-2611186.html