科研进展和开题准备.ppt

资源ID：2600138 资源大小：458.01KB 全文页数：21页
资源格式： PPT 下载积分：6元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

科研进展和开题准备.ppt

科研进展和开题准备,面向HTML网页资源的网页主题信息提取研究武洋,总体框架,一科研成果和科研方向成果科研方向二开题准备情况一个系统三个可能创新点,科研成果,学术会议pdf资源的抓取参与法学和经济学领域web资源检索系统的实现协助苏哲师兄完成网络资源抓取系统的部分模块，接手后续工作。,科研方向,网页资源主题抓取方面的相关工作,系统的架构,中文PDF资源抓取系统,英文PDF资源抓取系统,HTML网页资源抓取系统,特色经济学法学类资源抓取系统,会议学术类资源抓取系统,网页资源抓取的过程,1. 主题描述：研究主题描述的方式，选择一种适合的方式描述主题，既可以与原有系统相融合，便于用户使用，又可以对不同主题有较好的区分度并便于扩展，同时又便于主题爬虫工作。 2. 主题爬虫：研究主题爬虫的实现方式，主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源，既需要有较高的查准率，又要有较高的查全率，并保证主题不发生偏移。 3. 网页分析：分析抓取到的网页资源的结构，在此基础上通过某种高效的算法确定网页中的主要信息块。 4. 信息抽取：针对包含信息量大、格式相对规范的网页资源，提出一种有效的主题信息抽取算法。 5. 资源展示：针对经济学法学门户知识检索平台，选择一种对用户友好的推荐资源展示界面。,存在的问题和难点,如何确定一种高效简洁的网页分块算法如何迅速有效地确定网页的主要信息块网页资源的去重网页中的主题无关信息的去除主题信息提取结果与主题的相关性评价,另外一种抓取策略,Structure-driven的抓取方式，实验室是是基于content-driven。针对特定门户，精确率和召回率都很高。 Site mapping ，生成target pages map navigation pattern generation正则表达式。,Structure-driven的抓取方式,Entry point,Sample page,Target page,TPM,TPM的转化和NP的选择。,算法,网页资源的去重,Web上的html网页资源虽然千差万别，但仍然有大量的重复资源。这种重复可以分为以下三类：完全相同的重复。主要原因为某一个具有高权威的网页被其他众多的网页直接援引，使用直接提供URL链接的方式进行引用。这样一个同样的页面的链接会出现在其他N个页面上，在我们的主题爬虫去爬取时，便会得到这些重复的资源。这些网页资源的URL、标题和内容会完全相同。文章URL不同，但标题和内容相同的重复。主要原因为其他页面将权威页面的标题和内容拷贝至本地站点静态存储并给予不同链接地址。文章URL不同，标题也不同，但内容完全相同或大致相同的重复。与前两种重复方式相同的是，其他页面对权威网页进行转载；但却只是转载了权威页面的主要内容或主要段落，这样得到的新的网页虽然URL、标题甚至网页的结构都与源网页不同，但内容却完全相同或大致相同。,网页去重的策略,同源网页去重基于网页内容的去重,同源网页去重,构造一个适当的哈希函数H 可得到从网页URL 字符序列到哈希值的映射,相同的URL 字符串会得到相同的哈希值,从而说明该URL 已被下载过.,基于网页内容的去重,内容重复或近似的网页在新闻类网站中所占的比例是很高的. 比如：有些重要网页可能被多家网站同时转载(如教育部关于加强学校体育活动安全防范工作的紧急通知) ,虽然它们的URL 不同(甚至标题也略有不同,如教育部要求加强学校体育活动安全防范工作的紧急通知) ,仍应认为是同一个内容,不需重复下载.,基于网页内容的去重,由于自然语言的复杂性,一直是搜索引擎领域一个亟待解决的难题。其关键问题是文本特征的抽取和大规模内容的快速计算。,基于网页内容的去重,基于词频统计的方法一种基于网页文本结构的网页去重,基于词频统计的方法,通过统计文本中出现的关键词的个数,将高频词作为文本特征来计算相似度。由于一篇文章的词频很难被修改,这种方法的召回率很高。但是对于一些新闻题材或模板类的文章,由于关键词非常相似,常常会引起误判,准确率较低。,一种基于网页文本结构的网页去重,对网页文本结构有标识性作用的HTML结标签和项目编号或符号赋予一定的权值,然后依据自然段权值的大小来生成目录结构树。比较各个层次的相似度，md5值来比较。,开题准备,一个系统：完善已有的系统。数据集潜在的创新点：目录型网页资源的获取网页资源去重的问题去除网页中的噪音信息,谢谢！ Q&A,

注意事项

本文（科研进展和开题准备.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。