科研进展和开题准备.ppt
科研进展和开题准备,面向HTML网页资源的网页主题信息提取研究 武洋,总体框架,一 科研成果和科研方向 成果 科研方向 二 开题准备情况 一个系统 三个可能创新点,科研成果,学术会议pdf资源的抓取 参与法学和经济学领域web资源检索系统的实现 协助苏哲师兄完成网络资源抓取系统的部分模块,接手后续工作。,科研方向,网页资源主题抓取方面的相关工作,系统的架构,中文PDF资源抓取系统,英文PDF资源抓取系统,HTML网页资源抓取系统,特色经济学法学类资源抓取系统,会议学术类资源抓取系统,网页资源抓取的过程,1. 主题描述:研究主题描述的方式,选择一种适合的方式描述主题,既可以与原有系统相融合,便于用户使用,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。 2. 主题爬虫:研究主题爬虫的实现方式,主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。 3. 网页分析:分析抓取到的网页资源的结构,在此基础上通过某种高效的算法确定网页中的主要信息块。 4. 信息抽取:针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息抽取算法。 5. 资源展示:针对经济学法学门户知识检索平台,选择一种对用户友好的推荐资源展示界面。,存在的问题和难点,如何确定一种高效简洁的网页分块算法 如何迅速有效地确定网页的主要信息块 网页资源的去重 网页中的主题无关信息的去除 主题信息提取结果与主题的相关性评价,另外一种抓取策略,Structure-driven的抓取方式,实验室是是基于content-driven。 针对特定门户,精确率和召回率都很高。 Site mapping ,生成target pages map navigation pattern generation正则表达式。,Structure-driven的抓取方式,Entry point,Sample page,Target page,TPM,TPM的转化和NP的选择。,算法,网页资源的去重,Web上的html网页资源虽然千差万别,但仍然有大量的重复资源。这种重复可以分为以下三类: 完全相同的重复。主要原因为某一个具有高权威的网页被其他众多的网页直接援引,使用直接提供URL链接的方式进行引用。这样一个同样的页面的链接会出现在其他N个页面上,在我们的主题爬虫去爬取时,便会得到这些重复的资源。这些网页资源的URL、标题和内容会完全相同。 文章URL不同,但标题和内容相同的重复。主要原因为其他页面将权威页面的标题和内容拷贝至本地站点静态存储并给予不同链接地址。 文章URL不同,标题也不同,但内容完全相同或大致相同的重复。与前两种重复方式相同的是,其他页面对权威网页进行转载;但却只是转载了权威页面的主要内容或主要段落,这样得到的新的网页虽然URL、标题甚至网页的结构都与源网页不同,但内容却完全相同或大致相同。,网页去重的策略,同源网页去重 基于网页内容的去重,同源网页去重,构造一个适当的哈希函数H 可得到从网页URL 字符序列到哈希值的映射,相同的URL 字符串会得到相同的哈希值,从而说明该URL 已被下载过.,基于网页内容的去重,内容重复或近似的网页在新闻类网站中所占的比例是很高的. 比如:有些重要网页可能被多家网站同时转载(如教育部关于加强学校体育活动安全防范工作的紧急通知) ,虽然它们的URL 不同(甚至标题也略有不同,如教育部要求加强学校体育活动安全防范工作的紧急通知) ,仍应认为是同一个内容,不需重复下载.,基于网页内容的去重,由于自然语言的复杂性,一直是搜索引擎领域一个亟待解决的难题。其关键问题是文本特征的抽取和大规模内容的快速计算。,基于网页内容的去重,基于词频统计的方法 一种基于网页文本结构的网页去重,基于词频统计的方法,通过统计文本中出现的关键词的个数,将高频词作为文本特征来计算相似度。由于一篇文章的词频很难被修改,这种方法的召回率很高。但是对于一些新闻题材或模板类的文章,由于关键词非常相似,常常会引起误判,准确率较低。,一种基于网页文本结构的网页去重,对网页文本结构有标识性作用的HTML结标签和项目编号或符号赋予一定的权值,然后依据自然段权值的大小来生成目录结构树。 比较各个层次的相似度,md5值来比较。,开题准备,一个系统:完善已有的系统。 数据集 潜在的创新点: 目录型网页资源的获取 网页资源去重的问题 去除网页中的噪音信息,谢谢! Q&A,