面向学术系统的定向爬取技术研究和实现.ppt
《面向学术系统的定向爬取技术研究和实现.ppt》由会员分享,可在线阅读,更多相关《面向学术系统的定向爬取技术研究和实现.ppt(28页珍藏版)》请在三一文库上搜索。
1、,面向学术系统的定向爬取技术研究和实现,姓名:李德阳 学号:2013103310 导师:陆嘉恒,目录,选题依据,预期成果,工作进度安排,课题技术路线及研究方案,学术搜索,Google学术搜索 Google学术搜索提供可广泛搜索学术文献的简单方法。您可以从一个位置搜索众多学科和资料。它可以帮助您在整个学术领域中确定相关性最强的研究。http:/ BASE学术搜索 BASE是德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。http:/www.base- pan
2、dasearch,选题依据,信息量指数增长。 标准爬虫满足不了需求。 慢 标准爬虫缺点 消耗大量的存储空间 带宽资源 容易出错 定向爬虫是为了获得互联网上某一方面的特定信息而设计的。最理想的定向爬虫是能使获得的页面相关性最大,而不相关性最小。 快速、消耗少量的带宽和存储空间、个人机就可以爬取。,标准爬取和定向爬取,国内外研究现状分析,根据某一特定查询语句来爬取特定文档信息。 seed keywords seed urls seed pages topic keywords web page COMP630D Course Project Report: Implementation of Fo
3、cused Crawler Yang Yongsheng,Wang Hui Department of CS/EEE, HKUST ysyangcs.ust.hk, whuiust.hk,国内外研究现状分析,国内外研究现状分析,The Context Focused Crawler Focused Crawling Using Context Graphs M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.Giles and M.Gori NEC Research Institute,4 Independence Way,Princeton,NJ 08540-663
4、4,满足不了学术搜索系统的建立。 要求: 1.全 2.准确,课题技术路线及研究方案,爬取计算机相关网站,保证信息相关性最大,查全率、查准率最高。 照片 静态页面 动态页面 GoogleAPI Springer IEEE ScienceDirect 知网,爬取引擎,服务器,建立学术搜索必须首先建立专家学者库以及论文库。 姓名、单位、照片、邮箱、介绍等 专家库 论文 论文标题、子标题、作者、期刊号、页码、摘要等 论文库 论文全文,分类 Google Springer 爬取的网站 IEEE ScienceDirect 其他,照片 作者信息 爬取的内容 论文标题、摘要、期刊号、页码等信息 全文信息,爬
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 学术 系统 定向 技术研究 实现
链接地址:https://www.31doc.com/p-3223464.html