利用分块重要度进行中文网页分类的研究.ppt
《利用分块重要度进行中文网页分类的研究.ppt》由会员分享,可在线阅读,更多相关《利用分块重要度进行中文网页分类的研究.ppt(21页珍藏版)》请在三一文库上搜索。
1、利用分块重要度进行中文网页分类的研究,段 昕 山东大学计算机学院,第1页,引 言,互联网的发展和信息量俱增使得人们对于主题网页(以下简称“网页”)自动分类的要求越来越迫切。 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。,第2页,网页分块,网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页分类,
2、从而提高分类的质量。,第3页,第4页,网页分块方法(1),基于位置关系的分块法,利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类;,实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页;,这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。,第5页,网页分块方法(2),基于文档对象模型(DOM)的分块法,找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构;,特定标签包括heading、table、paragraph和list等;,在许多情况下,文档对象
3、模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。,第6页,网页分块方法(3),基于视觉特征网页分块法(VIPS),利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树;,利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块;,每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起;,利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。,第7页,网页分块重要度的标定,利用网页的空间和内容特征可以对分块
4、进行重要度的标注,共分为4个级别:,级别一 广告、版权等噪声信息 级别二 导航条、网站目录等与网页标题相关 性不大但有一定用处的信息 级别三 与网页主题一致但并不是十分突出的 信息,如相关标题、标题索引等 级别四 大字标题、正文等 网页中最突出部 分的信息,第8页,第9页,实 验,为了检验利用网页分块技术进行中文主题网页分类的质量,我们将其与传统网页分类法进行了比较。选取政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境等10大类共计3000篇主题网页进行实验,其中训练集2000篇,测试集1000篇。,第10页,在进行特征提取时,采用了开方检验( test, CHI)特征提取法,计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 分块 重要 进行 中文 网页 分类 研究
链接地址:https://www.31doc.com/p-2598437.html