科研进展和开题准备.ppt
《科研进展和开题准备.ppt》由会员分享,可在线阅读,更多相关《科研进展和开题准备.ppt(21页珍藏版)》请在三一文库上搜索。
1、科研进展和开题准备,面向HTML网页资源的网页主题信息提取研究 武洋,总体框架,一 科研成果和科研方向 成果 科研方向 二 开题准备情况 一个系统 三个可能创新点,科研成果,学术会议pdf资源的抓取 参与法学和经济学领域web资源检索系统的实现 协助苏哲师兄完成网络资源抓取系统的部分模块,接手后续工作。,科研方向,网页资源主题抓取方面的相关工作,系统的架构,中文PDF资源抓取系统,英文PDF资源抓取系统,HTML网页资源抓取系统,特色经济学法学类资源抓取系统,会议学术类资源抓取系统,网页资源抓取的过程,1. 主题描述:研究主题描述的方式,选择一种适合的方式描述主题,既可以与原有系统相融合,便于
2、用户使用,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。 2. 主题爬虫:研究主题爬虫的实现方式,主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。 3. 网页分析:分析抓取到的网页资源的结构,在此基础上通过某种高效的算法确定网页中的主要信息块。 4. 信息抽取:针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息抽取算法。 5. 资源展示:针对经济学法学门户知识检索平台,选择一种对用户友好的推荐资源展示界面。,存在的问题和难点,如何确定一种高效简洁的网页分块算法 如何迅速有效地确
3、定网页的主要信息块 网页资源的去重 网页中的主题无关信息的去除 主题信息提取结果与主题的相关性评价,另外一种抓取策略,Structure-driven的抓取方式,实验室是是基于content-driven。 针对特定门户,精确率和召回率都很高。 Site mapping ,生成target pages map navigation pattern generation正则表达式。,Structure-driven的抓取方式,Entry point,Sample page,Target page,TPM,TPM的转化和NP的选择。,算法,网页资源的去重,Web上的html网页资源虽然千差万别,但
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科研 进展 开题 准备
链接地址:https://www.31doc.com/p-2600138.html