欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    主题型网页发现以及网页内信息块发现课件.ppt

    • 资源ID:2714589       资源大小:427.01KB        全文页数:24页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    主题型网页发现以及网页内信息块发现课件.ppt

    主题型网页发现以及网页内信息块发现,华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢,主题型网页发现,目录,特征分析 算法设计 结果分析 不足与改进,特征分析,主题型网页特征: 文字较多(非锚文本) 主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。 URL较长 在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。,特征分析,非主题型网页特征 文字较少 非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少 链接较多 对于导航型网页而言,链接是其主要内容 URL较短 导航型网页的URL层数较少,且多为目录型URL,特征分析,网页噪音特征 多以链接的形式出现 有很多锚文本,但标点符号较少 有许多常见的噪音文本,如版权声明等 在视觉上,多出现于网页的边缘,算法设计,主题型网页发现:对网页进行二元分类 分类过程分为三个阶段: 阶段1: 根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。 阶段2: 对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等。 阶段3: 经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。,抽取网页重要特征,根据特征阈值判断,判断为非主题型网页,判断为主题型网页,进一步抽取网页特征,难以判断,分类器分类,判断为非主题型网页,判断为主题型网页,信息块抽取,反馈,进一步去除非主题型网页,网页数据,阶段1,阶段2,阶段3,网页去噪,算法设计,关键1:网页去噪 利用HTML分析工具(HtmlParser)去除所有脚本代码 去除网页中的所有锚文本 网页噪音多为广告,以链接的形式出现 过滤常见的噪音文本 去掉以非锚文本形式出现的网页噪音,算法设计,关键2:特征阈值设定 重要特征: 网页正文内容中的中文句号和逗号的数目 URL层数 URL是否为目录型,是否包含某些特殊关键字 阈值设置:抽样测试表明,当网页的句号和逗号数目超过20个时,绝大部分的网页为主题型网页;当句号和逗号数目少于5时,绝大部分的网页为非主题型网页; 当URL层数为1时,绝大部分的网页为非主题型网页; 当URL为目录型URL时,绝大部分的网页为非主题型网页;,算法设计,关键3:分类器 分类器的选择 有监督分类器:支持向量机 无监督分类器:KNN聚类 分类器的特征选择 网页正文文字数目 网页正文标点符号数目 URL层数 URL中数字的个数 ,结果分析,测试集:cwt_quark_70thousand 71502个web 阶段1: (输入71502个web ) 主题型网页:33161个 非主题型网页:19623个 无法判断的网页:18718个(26.18%) 阶段2: (输入18718个web ,利用SVM分类) 主题型网页:15139个 非主题型网页:3579个 阶段3: 根据主题型网页信息块抽取结果,去掉只能抽取到极少内容的主题型网页3206个 最终: 主题型网页:45094个(63.07%) 非主题型网页:26408个(36.93%),结果分析,从阶段1的分类结果看出:大部分的网页(73.82%)可以根据网页的重要特征的阈值进行分类,方法简单高效。 虽然只有26.18%的网页需要利用分类器进行进一步的分类,但这26.18%的网页可能恰恰决定了本算法的分类效果。因为这26.18%的网页都是模棱两可的,对它们进行准确的分类至关重要! 由于阶段1和阶段2都可能存在一定的误差,因此经过信息块抽取之后的反馈是很重要的。,不足与改进,对网页的特征选择与抽取还有待完善,期望以后能挖掘出更能描述网页性质的特征。 在网页去噪方面略显粗糙,需做进一步改善 阶段1的特征阈值设定过于简单。 阶段3的反馈机制过于简单。,网页内信息块发现,一、术语定义,主题型网页:主题型网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。 PlainText:最终在浏览器中显示的文本,而且这些文本不是锚文本。 AnchorText:锚文本,这些文本也会在浏览器中显示,但是这些文本也是跳往其他网页的链接。,二、主题型网页特点,主题型网页通常包含利用大量的文本来介绍,而且这部分文本中绝大部分都是PlainText。 将网页以树(Tree)的形式表现, HTML标签以及标签内的文本都作为树的(Tree)节点存在于该树中。 HTML()成为这棵树的根节点 大部分的叶子节点都是文本节点 主题型网页的噪音信息可以分成是两种: 一种是广告(锚文本) 另外一种是网页声明,三、主题信息块的发现与提取:,目标:为了找到主题信息的起始位置和长度,最有效的办法就是找到这样一个节点p,节点p满足下面的条件:,算 法,1. 集合L 为树中所有的叶子节点,并且节点不为标记 的子节点 2. 对于L 中的任意节点leaf , if(!isPlainText(leaf) L=L-leaf 3. averageLength=calAverageLength(L);/ 平均长度 任意节点leaf 属于 L,calLength(leaf)averageLength; L=L-leaf; 4. 集合M为空。任意节点leaf 属于 L,parent= leaf .getParent() while(parent.getChildren().size=1) parent= parent .getParent(); M=M+parent; 如果M.size经验值(这里经验值设为3)结束 否则,L =M,并执行3。,四、进一步去除噪音,干扰信息:script、frame(广告、或网站定制的脚本) 对脚本、frame的信息进行定位,并根据每段正文的起始和结束位置与干扰信息块的关系,将正文提取出来。,五、表格型网页抽取,以表格的形式来展现主题 股票的价格信息 电脑DIY的配件信息 处理 抽取网页中的Table标记中的内容 统计Table中包含文字的TR和TD(避免递归处理)的信息 把所有TD数目(列数)超过阈值的TR的都抽取出来, 如果这些TR的数目大于某个阈值,将其父结点加到结果集,结果分析,1. 对于布局正规的网页,抽取方法效果十分理想 2. 对于论坛类型的文章,该方法可以去除一些无意义的回复(如顶、赞等),保留有意义的回复。 3. 对于表格类型的网页,结合有规律的行列分布,可以对表格信息进行有效的抽取,不足与改进,找到一个更加科学的方法来设定阈值 利用标题以获得更多的信息 更好的“上升”策略,谢 谢 !请批评指正!,成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢,

    注意事项

    本文(主题型网页发现以及网页内信息块发现课件.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开