信息抽取2.ppt
《信息抽取2.ppt》由会员分享,可在线阅读,更多相关《信息抽取2.ppt(53页珍藏版)》请在三一文库上搜索。
1、信息抽取(2) Information Extraction (IE) 1 IE n什么是信息抽取 nIR和IE n面对的工作和IE模型 nIE体系结构 2 Wrapper Induction 3 Wrapper n分装器 ,包装器 n是一个程序,用于从特定的信息源 中抽取相关内容,并以特定形式加 以表示。 n由一系列的抽取规则以及应用这些 规则的计算机程序代码组成。 4 基于Wrapper方法的信息抽取 5 wrapper的构造方式 n手工生成 n半自动生成 n自动生成 6 Wrapper Induction n归纳学习算法 n是一种通过分析一个未知的集合中 的某些遵循某种规律的实例集合,
2、归纳出一般性的规则,并利用这些 规则来推知该集合的其他部分的方 法。 7 Wrapper Induction n a technique for automatically const ructing wrappers from labeled examples of a resources content. 8 Wrapper induction: Delimiter-based extraction Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 Use , , , for extraction 9 Learning LR
3、 wrappers l1, r1, , lK, rK wrapper Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 Example: Find 4 strings , , , l1
4、, r1 , l2 , r2 labeled pages 10 n : datai-1与datai 之间字符串的后缀 n : datai与datai+1之间字符串的前缀 11 LR: Finding r1 Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 r1 can be any prefix eg 12 LR: Finding l1, l2 and r2 Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 r2 can be any prefix eg l2 c
5、an be any suffix eg l1 can be any suffix eg 13 A problem with LR wrappers Distracting text in head and tail Some Country Codes Some Country Codes Congo 242 Egypt 20 Belize 501 Spain 34 End 14 One (of many) solutions: HLRT Ignore pages head and tail Some Country Codes Some Country Codes Congo 242 Egy
6、pt 20 Belize 501 Spain 34 End head body tail start of tail Head-Left-Right-Tail wrappers end of head 15 Extraction nHLRT wrapper as a vector nWeb pages as Example, output tuples as Label, ExecHLRT() as a Hypothesis function 16 Induction 17 Induction as search nSearch the hypothesis space 18 Inductio
7、n as search nGenerate-andtest nDepth-first search, 2K+2 levels for wrapper vector 19 隐马尔可夫模型 Hidden Markov model (HMM) 20 Generating Patterns n 生成模型是指在数据预处理基础上通过 神经元网络、回归分析等数据建模算法 从训练样本集中提炼出数据模型. 21 Generating Patterns n确定性的生成模型 22 Generating Patterns n非确定性的生成模型 23 Markov过程与Markov链 nMarkov过程:具有无后效性的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 抽取
链接地址:https://www.31doc.com/p-3240493.html