数字图书馆中的热点研究主题提取1.doc
《数字图书馆中的热点研究主题提取1.doc》由会员分享,可在线阅读,更多相关《数字图书馆中的热点研究主题提取1.doc(9页珍藏版)》请在三一文库上搜索。
1、精品论文数字图书馆中的热点研究主题提取1韩晓晖,马军 山东大学计算机科学与技术学院,济南(250101) E-mail: 摘要:随着数字图书馆中科技论文数量的飞速增长,对于研究者来说收集、组织和利用那 些他们感兴趣的论文成为一项困难的工作。此外,蕴含在数字图书馆中的深层知识并没有被 很好的挖掘出来。本文首先提出了一种结构化论文相似度计算方法,然后提出了一种从数字 图书馆的论文集里提取一定时间段内的热点研究主题的方法,其主要思想为:首先基于提出 的结构化相似度度量将论文集和聚类成簇,每个簇被看作是一个主题。其后,每个主题的热 度被计算出来,有最高热度值的主题被选择为热点主题。实验结果证明了结构化
2、论文相似度 计算方法和热点研究主题提取方法的有效性。 关键词:主题检测,数字图书馆,科技论文,相似度中图分类号:TP3911.引言随着互联网技术的快速发展,万维网已经成为一种越来越流行的科技论文发表和共享介 质。越来越多的期刊被数字化后放在互联网上,许多研究者在网上发表论文的预印版本。这 为研究者的研究工作提供了丰富而且及时的科技信息资源。但是,这也带来了一个问题,那 就是信息爆炸。 每天都有大量新的科技论文发布在网上, 对于研究者来说,收集和使用自 己需要的论文资源变得越来越困难,他们不得不花费大量的时间和精力来选择对他们有用的 论文,降低了研究的效率。数字图书馆的出现在一定程度上解决了这个
3、问题,其目的是提供 对电子文献资源的存储,组织和查找。许多企业、研究机构和出版商已经建立了他们自己的 数字图书馆来共享数字论文资源。如: Google Scholar 提供良好的工具帮助研究者在线查找科 技论文;Citeseer 提供对计算机领域科技论文的检索,并使用一种通过引文链接检索论文的 方式,方便用户找到自己感兴趣的论文及其引用和被引用信息;ACM Porta 建立在传统图书 馆编目的概念上,提供对美国计算机协会的各种电子期刊、会议记录、快报等文献的查询和 浏览;ePrint 提供对物理学、数学、非线性科学和计算机科学等学科预印论文的电子版的检 索,缩短了审稿和出版的延迟。但是,这些论
4、文库提供的查找一般都是基于关键字匹配的, 或者是提供给用户一个层次化的目录1。这种方式的缺点是:一个查询往往导致数目很大 的检索结果,并且其中的大多数往往与用户的需求并不相关。文献12使用神经网络对结果 进行分类,以提高检索结果的质量,减少查询时间。然而上述的方法都是利用了论文的浅层 信息,并没有对蕴含在整个论文集中的深层信息进行发掘。本文提出了一种新的方法挖掘隐含在在数字图书馆中的深层信息,通过对论文集进行主 题分析,找到当前的热点研究主题,为研究者了解本领域的发展情况和确定研究方向提供依 据。 其主要贡献为: 1) 根据科技论文本身具有结构化的特点,提出了一种新的结构化科技 论文相似度计算
5、方法。2) 在结构化科技论文相似度的基础上,提出了一种基于单遍聚类算 法的热点研究主题提取方法。本文下面的内容将这样组织,第二章介绍与本文内容相关的一些研究进展。在第三章,1本课题得到高等学校博士学科点专项科研基金“科技论文网络发表平台的管理和可持续发展问题的研究”(20070422107)和山东省科技攻关项目“垂直检索系统的研究与开发”(2007GG10001002)的资助。- 9 -提出了一种适用于科技论文的结构化相似度计算方法。第四章我们将给出热点研究发现方法。结构化论文相似度计算及热点研究主题提取的有效性在第五章用 2 个实验验证。第六章 对全文进行总结,并提出未来的工作。2.相关工作
6、文本相似度的计算在信息检索领域已经做了广泛和深入的研究。大多数传统的文本相似 度度量是基于“bag of words”的,文档之间的共性和不同根据词或短语在文档中的共现情 况度量。比较常用的度量方法如余弦相似度,Jaccard 相似度,Overlap 相似度9,11及信息 论度量10等等都是基于这种思想。这些相似度度量适合于类别之间差别较大的文本分类或 聚类应用。但是,同一领域的论文通常使用很多相同的词语或短语,因此,用上述的相似度 度量方法很难区分同一领域中不同子研究主题的论文。文献4了一种结构化的相似度度量 方法,将一片文档看作是有一定主题结构的文本,通过比较两篇文档的子主题结构,可以更
7、精确的计算两篇文档的相似度。这种相似度度量适用于普通文档,这些文档通常没有显式的 结构, 而科技论文有本身具有良好的结构, 即一篇科技论文通常由题目,摘要,关键词, 正文内容和引用组成。因此我们可以更进一步利用这种结构进行相似度计算以便更好的区分 不同的主题。本文根据科技论文的结构特点提出了一种新的相似度计算方法来提高相似度计 算的有效性。热点主题提取问题在主题检测与跟踪(TDT)中已经做了一定的研究。文献5通过进行时 间线分析和多维句子模型的方法从新闻集中提取出一定时间段内的热点主题。论文7, 8提 出了一种自动提取 BBS 中的热点主题的方法,它使用基于 BP 神经网络的分类算法来根据 流
8、行度、质量和时间分布判断一个主题的热度。文献6使用单遍聚类的方法检测 BBS 和网 页中的主题,利用所谓主题关注度的度量来评估一个主题的热度。然而, 科技论文的结构 和特点不同于新闻,论坛和网页,因此上述热点提取发现算法并不完全适合于科技论文。 因 此本文通过分析科技论文的特征,提出了一种用于数字图书馆的科技论文热点研究主题提取 发现算法。3.科技论文相似度计算科技论文本身可以看作是一种结构化的文本数据,一篇科技论文通常由标题、作者、摘 要、关键词、正文和参考论文组成。每一部分在整个论文中所起的作用不同,因此每一部分 在文章当中的重要性也不同,在计算两篇论文之间的相似度时,应当将这些不同考虑进
9、去。 本章首先对论文的整体结构和每一部分进行分析,进而根据每一部分的特征,提出一种结构 化的相似度计算公式。3.1 论文结构分析绝大部分的科技论文有着相似的固定结构。图 1 说明了一篇科技论文的每一部分及它们 与文章中心思想的关系。每一部分的分析如下: 论文头部:本文将题目、摘要和关键词称为论文头部,因为这三个部分可以是看作论文内容 的精确概括。题目通常是描述文章中心思想的一个句子。关键词包含了最能反映文章主题的 若干个词。摘要是作者主要思想的一个很好的概括,它包括对研究方法,研究目标,结果和 结论的简洁的描述。在摘要中没有修饰和冗余的内容。因此,这三个部分的内容在相似度计 算的时候应当给予较
10、高的权重。Head: Title Abstract KeywordsSummaryCentral ideaReferencesSupportContentDescribe图 1 科技论文组成结构Fig.1 Components of a scientific literature.内容:正文内容一般包括引言,相关工作描述,作者的研究工作和验证作者观点正确性的实 验。正文当中的内容往往是冗繁的,并且包含了一些可能降低相似度计算精度的噪声词。所 以,在本文提出的相似度计算方法中会适当的降低正文内容的权重 参考文献:参考文献包含一个作者所引用文章的列表。作者的研究工作就是建立在这些文献 的基础之上的
11、。文献23使用公共引用数来估计两篇文章的相关度,其主要思想是如果两 篇科技论文引用了一些相同的出版物,那么这两篇论文可能是相似的。然而实际上,同一主 题的两篇论文并不是严格的引用一些相同的论文。直觉上可以认为如果两篇论文引用了主题 相似的论文(并不一定是相同的),那么这两篇论文的主题仍然可能是相同的。因此我们将 23中的条件放宽,利用两篇论文所引用的参考文献的题目的相似度来评估相关性。3.2 论文头相似度因为一篇科技论文头部的内容往往很短小,所以我们选择 Jaccard 相似度来计算两篇论 文头部的相似度。计算公式如下:SimHead (a, b) = ta b (wa ,t wb ,t )
12、2 2 (1)ta wa ,t + tb wb,t ta b (wa ,t wb ,t )其中, a和b分别为两篇论文的头部;wa,t,wb,t为词项t分别在a和b中的权重。在本文中, 如果词t在文档a中出现则 wa,t为 1,否则为 0。wb,t与之相同。3.3 论文内容相似度本文使用信息检索中最常用的向量空间模型来表示正文内容。向量空间模型将文档看作 是词的集合,一篇论文的正文内容被表示成为一个特征向量:rX d = (w1 , w2 , w3 ,.wn )其中wdi是第i个特征项的权重,其计算公式如下:wdi =(0.5 + 0.5 fdi ) log( D )fd maxni(2) j
13、d (0.5 + 0.5fdjfd max)2 (logN D )2n j其中fdi为第i个特征项在文档d中的频率;fdmax为d中的最高的词频,D为论文集中论文的总数,ni为包含特征相i的文档数量。通常,使用余弦相似度来计算两个向量Xa和 Xb间的相似度。所以本文将两篇论文的正文相似度定义为:SimContent = X a X b(3)X a X b其中,Xa、Xb分别为论文a和论文b的正文向量。3.4 引文相似度本文仍然使用公式 1 来计算两篇文章参考文献之间的相似度。由于本文只考虑了参考文 献的标题,所以,我们要提取出参考文献列表中所有引文的标题来。这是一项很困难的工作, 因为不同文章
14、的参考文献格式不尽相同。但是,它们之间仍有一些共性。例如,参考文献的 编号总是出现在一个引用条目的最前面,对于所有条目其格式都是相同的。作者信息往往出 现在题目的前面,而题目后面紧跟的是出版商的信息。所以,我们可以使用下面的启发规则 来提取参考文献的题目:1)将引用的内容按照标点符号分割成段。2)计算每一个段的长度。3)通常题目段和出版信息段是长度最长的两个段,因为出版信息总是在题目之后,因此分 析长度最长的两个段的先后顺序,以及是否有“Proceeding”,“journal”,“conference” 等期刊、杂志标题中经常出现的短语,最后判定哪一个是题目。图 2 是一些参考文献的示例。图
15、 3 显示了我们题目提取方法的准确率。我们从不同的期 刊和杂志上收集了 100 篇参考文献格式不同的论文。结果表明,对于绝大多数的引用类型, 我们的方法是有效的。图 2 参考论文样例Fig.2 Examples of References.Precision of Reference Title Etraction959085Precision8075706560555020 40 60 80100Number of papers图 3 参考论文题目提取精度Fig.3 Precision of Reference Title Extraction.3.5 结构化论文相似度公式我们将上述三种相似
16、度结合起来,形成结构化论文相似度计算公式:sim( p1, p2 ) = SimHead + SimContent + SimRef(4)其中,p1、p2是两篇科技论文,SimHead是两篇论文头部的相似度,SimConent是两篇文章的正文相似度,而SimRef是引文的相似度。其中,是不同相似度因子的权重,满足 + +=1。在本文中取=0.5,=0.3 and =0.2。4.论文热点主题提取算法本章将讨论本文提出的热点研究主题提取算法,算法主要包括两个部分,第一部分使用 单遍聚类算法根据结构化论文相似度将论文聚合成簇,每一个簇被看作是一个主题。然后在 第二部分,计算每一个主题的热度,选择热度
17、最高的 k 个主题作为热点研究主题。本章的其 余部分将详细讨论这两个阶段的内容。4.1 论文主题检测本文使用单遍聚类算法对论文进行主题聚类。单遍聚类已经在 TDT 中广泛的使用, 并 且获得了比较好的结果。其较单链接聚类或完全链接聚类要快,并且复杂度更低。算法如下:算法 1:研究主题检测 输入:按时间顺序排列好的科技论文集合 输出:一个主题簇的集合C1,C2,Cn。1)创建一个只包含论文L1的簇2)对于顺序集合中接下来的每篇论文Li :a)计算论文Li与所有已经处理的论文之间的结构化论文相似度b)找到与 Li最相似的论文Lk, 即Lk = arg max sim(Lk , Li )Dk ic)
18、如果sim(Lk, Li),那么创建一个新簇只包含Li,否则将Li加入到Lk所在的簇当一篇新的论文到达时,如果该论文的主题不是新的,那么它将被加入到现有的某个簇 中。如果它与先前的论文有足够的不同之处,那么它成为了一个新簇的种子。该聚类算法是 一种增量的算法,因此,它可以在线的处理论文。这个属性使得该算法非常适合于数字图书 馆。4.2 主题热度评估在主题发现过程之后,得到表示研究主题的簇。接下来,每个主题被赋予一个热度值。 对主题簇i中的一篇论文Lij,使用下面的公式来评价其热度:Hotness(Li j ) =pi(tc t p )(5)其中tc是当前的时间(本文中以天为单位);tp是Lij
19、发表的时间,pi是Lij所在期刊的影响因子。本文使用SCI所公布的影响因子。我们基于这样的假定:新发表的影响力高的文章更能够代表 当前的研究趋势。这样,一个主题簇的热度按照下面的公式计算:TopicHotness(Ci ) = Hotness(Lij )jCiNdis(Lij )(6)i其中,Ni是簇Ci中的论文数量,dis(Lij)是Lij与最靠近簇i质心的文档的距离。 最后,热度最高的 k 个簇被看作是热点研究主题。本文使用词频统计的方法来为每个主题提取关键词,这些关键词被用作表示主题的标签。5.实验及分析本章将使用两个实验来验证本文两个主要部分的有效性。首先,为了评估本文提出的结 构化论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字图书馆 中的 热点 研究 主题 提取
链接地址:https://www.31doc.com/p-3626122.html