【大学课件】基于结构与内容的网页主题信息提取研究.ppt
《【大学课件】基于结构与内容的网页主题信息提取研究.ppt》由会员分享,可在线阅读,更多相关《【大学课件】基于结构与内容的网页主题信息提取研究.ppt(19页珍藏版)》请在三一文库上搜索。
1、基于结构与内容的网页主题信息提取研究,2006-7-21,http:/ 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结,前言,导航区,交互区,主题标签区,主题文本区,噪音区,相关研究工作网页结构分析,* DOM网页标记树法,* 页面显示实体坐标位置法,* 基于映射表的网页结构内容分析法,网页主题信息提取分层流程图,HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映 射。对HTML文档提取关键信息从而生成关于HTML文档的内容属 性映射表,即:f(Di ,in),其中Di为HTML文档集 ,Ti为
2、对应的每个文档的内容属性映射表。,HTML网页映射表,表1 HTML网页映射表 Tab.1 Mapping table of HTML page,HTML网页映射表,网页结构分析结构生成,网页结构生成方法及表示形式,* 基于栈的网页结构生成方法,* 语义字符串分级表示,如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。,网页结构分析区域分割,网页区域特征,根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(T
3、extItemi1,TextItemi2 TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCoun
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 大学 课件 基于 结构 内容 网页 主题 信息 提取 研究
链接地址:https://www.31doc.com/p-3035242.html