书签分享收藏举报版权申诉 / 9

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 数字图书馆中的热点研究主题提取1.doc

数字图书馆中的热点研究主题提取1.doc

上传人：韩长文

文档编号：3626122

上传时间：2019-09-18

格式：DOC

页数：9

大小：177.50KB

《数字图书馆中的热点研究主题提取1.doc》由会员分享，可在线阅读，更多相关《数字图书馆中的热点研究主题提取1.doc（9页珍藏版）》请在三一文库上搜索。

1、精品论文数字图书馆中的热点研究主题提取1韩晓晖，马军山东大学计算机科学与技术学院，济南（250101） E-mail: 摘要：随着数字图书馆中科技论文数量的飞速增长，对于研究者来说收集、组织和利用那些他们感兴趣的论文成为一项困难的工作。此外，蕴含在数字图书馆中的深层知识并没有被很好的挖掘出来。本文首先提出了一种结构化论文相似度计算方法，然后提出了一种从数字图书馆的论文集里提取一定时间段内的热点研究主题的方法，其主要思想为：首先基于提出的结构化相似度度量将论文集和聚类成簇，每个簇被看作是一个主题。其后，每个主题的热度被计算出来，有最高热度值的主题被选择为热点主题。实验结果证明了结构化

2、论文相似度计算方法和热点研究主题提取方法的有效性。关键词：主题检测，数字图书馆，科技论文，相似度中图分类号：TP3911.引言随着互联网技术的快速发展，万维网已经成为一种越来越流行的科技论文发表和共享介质。越来越多的期刊被数字化后放在互联网上，许多研究者在网上发表论文的预印版本。这为研究者的研究工作提供了丰富而且及时的科技信息资源。但是，这也带来了一个问题，那就是信息爆炸。每天都有大量新的科技论文发布在网上，对于研究者来说，收集和使用自己需要的论文资源变得越来越困难，他们不得不花费大量的时间和精力来选择对他们有用的论文，降低了研究的效率。数字图书馆的出现在一定程度上解决了这个

3、问题，其目的是提供对电子文献资源的存储，组织和查找。许多企业、研究机构和出版商已经建立了他们自己的数字图书馆来共享数字论文资源。如: Google Scholar 提供良好的工具帮助研究者在线查找科技论文；Citeseer 提供对计算机领域科技论文的检索，并使用一种通过引文链接检索论文的方式，方便用户找到自己感兴趣的论文及其引用和被引用信息；ACM Porta 建立在传统图书馆编目的概念上，提供对美国计算机协会的各种电子期刊、会议记录、快报等文献的查询和浏览；ePrint 提供对物理学、数学、非线性科学和计算机科学等学科预印论文的电子版的检索，缩短了审稿和出版的延迟。但是，这些论

4、文库提供的查找一般都是基于关键字匹配的，或者是提供给用户一个层次化的目录1。这种方式的缺点是：一个查询往往导致数目很大的检索结果，并且其中的大多数往往与用户的需求并不相关。文献12使用神经网络对结果进行分类，以提高检索结果的质量，减少查询时间。然而上述的方法都是利用了论文的浅层信息，并没有对蕴含在整个论文集中的深层信息进行发掘。本文提出了一种新的方法挖掘隐含在在数字图书馆中的深层信息，通过对论文集进行主题分析，找到当前的热点研究主题，为研究者了解本领域的发展情况和确定研究方向提供依据。其主要贡献为: 1) 根据科技论文本身具有结构化的特点，提出了一种新的结构化科技论文相似度计算

5、方法。2) 在结构化科技论文相似度的基础上，提出了一种基于单遍聚类算法的热点研究主题提取方法。本文下面的内容将这样组织，第二章介绍与本文内容相关的一些研究进展。在第三章，1本课题得到高等学校博士学科点专项科研基金“科技论文网络发表平台的管理和可持续发展问题的研究”(20070422107)和山东省科技攻关项目“垂直检索系统的研究与开发”(2007GG10001002)的资助。- 9 -提出了一种适用于科技论文的结构化相似度计算方法。第四章我们将给出热点研究发现方法。结构化论文相似度计算及热点研究主题提取的有效性在第五章用 2 个实验验证。第六章对全文进行总结，并提出未来的工作。2.相关工作

6、文本相似度的计算在信息检索领域已经做了广泛和深入的研究。大多数传统的文本相似度度量是基于“bag of words”的，文档之间的共性和不同根据词或短语在文档中的共现情况度量。比较常用的度量方法如余弦相似度，Jaccard 相似度，Overlap 相似度9，11及信息论度量10等等都是基于这种思想。这些相似度度量适合于类别之间差别较大的文本分类或聚类应用。但是，同一领域的论文通常使用很多相同的词语或短语，因此，用上述的相似度度量方法很难区分同一领域中不同子研究主题的论文。文献4了一种结构化的相似度度量方法，将一片文档看作是有一定主题结构的文本，通过比较两篇文档的子主题结构，可以更

7、精确的计算两篇文档的相似度。这种相似度度量适用于普通文档，这些文档通常没有显式的结构，而科技论文有本身具有良好的结构，即一篇科技论文通常由题目，摘要，关键词，正文内容和引用组成。因此我们可以更进一步利用这种结构进行相似度计算以便更好的区分不同的主题。本文根据科技论文的结构特点提出了一种新的相似度计算方法来提高相似度计算的有效性。热点主题提取问题在主题检测与跟踪(TDT)中已经做了一定的研究。文献5通过进行时间线分析和多维句子模型的方法从新闻集中提取出一定时间段内的热点主题。论文7, 8提出了一种自动提取 BBS 中的热点主题的方法，它使用基于 BP 神经网络的分类算法来根据流

8、行度、质量和时间分布判断一个主题的热度。文献6使用单遍聚类的方法检测 BBS 和网页中的主题，利用所谓主题关注度的度量来评估一个主题的热度。然而，科技论文的结构和特点不同于新闻，论坛和网页，因此上述热点提取发现算法并不完全适合于科技论文。因此本文通过分析科技论文的特征，提出了一种用于数字图书馆的科技论文热点研究主题提取发现算法。3.科技论文相似度计算科技论文本身可以看作是一种结构化的文本数据，一篇科技论文通常由标题、作者、摘要、关键词、正文和参考论文组成。每一部分在整个论文中所起的作用不同，因此每一部分在文章当中的重要性也不同，在计算两篇论文之间的相似度时，应当将这些不同考虑进

9、去。本章首先对论文的整体结构和每一部分进行分析，进而根据每一部分的特征，提出一种结构化的相似度计算公式。3.1 论文结构分析绝大部分的科技论文有着相似的固定结构。图 1 说明了一篇科技论文的每一部分及它们与文章中心思想的关系。每一部分的分析如下：论文头部：本文将题目、摘要和关键词称为论文头部，因为这三个部分可以是看作论文内容的精确概括。题目通常是描述文章中心思想的一个句子。关键词包含了最能反映文章主题的若干个词。摘要是作者主要思想的一个很好的概括，它包括对研究方法，研究目标，结果和结论的简洁的描述。在摘要中没有修饰和冗余的内容。因此，这三个部分的内容在相似度计算的时候应当给予较

10、高的权重。Head: Title Abstract KeywordsSummaryCentral ideaReferencesSupportContentDescribe图 1 科技论文组成结构Fig.1 Components of a scientific literature.内容：正文内容一般包括引言，相关工作描述，作者的研究工作和验证作者观点正确性的实验。正文当中的内容往往是冗繁的，并且包含了一些可能降低相似度计算精度的噪声词。所以，在本文提出的相似度计算方法中会适当的降低正文内容的权重参考文献：参考文献包含一个作者所引用文章的列表。作者的研究工作就是建立在这些文献的基础之上的

11、。文献23使用公共引用数来估计两篇文章的相关度，其主要思想是如果两篇科技论文引用了一些相同的出版物，那么这两篇论文可能是相似的。然而实际上，同一主题的两篇论文并不是严格的引用一些相同的论文。直觉上可以认为如果两篇论文引用了主题相似的论文(并不一定是相同的)，那么这两篇论文的主题仍然可能是相同的。因此我们将 23中的条件放宽，利用两篇论文所引用的参考文献的题目的相似度来评估相关性。3.2 论文头相似度因为一篇科技论文头部的内容往往很短小，所以我们选择 Jaccard 相似度来计算两篇论文头部的相似度。计算公式如下:SimHead (a, b) = ta b (wa ,t wb ,t )

12、2 2 (1)ta wa ,t + tb wb,t ta b (wa ,t wb ,t )其中， a和b分别为两篇论文的头部；wa,t，wb,t为词项t分别在a和b中的权重。在本文中，如果词t在文档a中出现则 wa,t为 1，否则为 0。wb,t与之相同。3.3 论文内容相似度本文使用信息检索中最常用的向量空间模型来表示正文内容。向量空间模型将文档看作是词的集合，一篇论文的正文内容被表示成为一个特征向量：rX d = (w1 , w2 , w3 ,.wn )其中wdi是第i个特征项的权重，其计算公式如下：wdi =(0.5 + 0.5 fdi ) log( D )fd maxni(2) j

13、d (0.5 + 0.5fdjfd max)2 (logN D )2n j其中fdi为第i个特征项在文档d中的频率；fdmax为d中的最高的词频，D为论文集中论文的总数，ni为包含特征相i的文档数量。通常，使用余弦相似度来计算两个向量Xa和 Xb间的相似度。所以本文将两篇论文的正文相似度定义为：SimContent = X a X b(3)X a X b其中，Xa、Xb分别为论文a和论文b的正文向量。3.4 引文相似度本文仍然使用公式 1 来计算两篇文章参考文献之间的相似度。由于本文只考虑了参考文献的标题，所以，我们要提取出参考文献列表中所有引文的标题来。这是一项很困难的工作，因为不同文章

14、的参考文献格式不尽相同。但是，它们之间仍有一些共性。例如，参考文献的编号总是出现在一个引用条目的最前面，对于所有条目其格式都是相同的。作者信息往往出现在题目的前面，而题目后面紧跟的是出版商的信息。所以，我们可以使用下面的启发规则来提取参考文献的题目：1)将引用的内容按照标点符号分割成段。2)计算每一个段的长度。3)通常题目段和出版信息段是长度最长的两个段，因为出版信息总是在题目之后，因此分析长度最长的两个段的先后顺序，以及是否有“Proceeding”，“journal”，“conference” 等期刊、杂志标题中经常出现的短语，最后判定哪一个是题目。图 2 是一些参考文献的示例。图

15、 3 显示了我们题目提取方法的准确率。我们从不同的期刊和杂志上收集了 100 篇参考文献格式不同的论文。结果表明，对于绝大多数的引用类型，我们的方法是有效的。图 2 参考论文样例Fig.2 Examples of References.Precision of Reference Title Etraction959085Precision8075706560555020 40 60 80100Number of papers图 3 参考论文题目提取精度Fig.3 Precision of Reference Title Extraction.3.5 结构化论文相似度公式我们将上述三种相似

16、度结合起来，形成结构化论文相似度计算公式：sim( p1, p2 ) = SimHead + SimContent + SimRef(4)其中，p1、p2是两篇科技论文，SimHead是两篇论文头部的相似度，SimConent是两篇文章的正文相似度，而SimRef是引文的相似度。其中，是不同相似度因子的权重，满足 + +=1。在本文中取=0.5，=0.3 and =0.2。4.论文热点主题提取算法本章将讨论本文提出的热点研究主题提取算法，算法主要包括两个部分，第一部分使用单遍聚类算法根据结构化论文相似度将论文聚合成簇，每一个簇被看作是一个主题。然后在第二部分，计算每一个主题的热度，选择热度

17、最高的 k 个主题作为热点研究主题。本章的其余部分将详细讨论这两个阶段的内容。4.1 论文主题检测本文使用单遍聚类算法对论文进行主题聚类。单遍聚类已经在 TDT 中广泛的使用，并且获得了比较好的结果。其较单链接聚类或完全链接聚类要快，并且复杂度更低。算法如下：算法 1：研究主题检测输入：按时间顺序排列好的科技论文集合输出：一个主题簇的集合C1，C2，Cn。1)创建一个只包含论文L1的簇2)对于顺序集合中接下来的每篇论文Li ：a)计算论文Li与所有已经处理的论文之间的结构化论文相似度b)找到与 Li最相似的论文Lk，即Lk = arg max sim(Lk , Li )Dk ic)

18、如果sim(Lk, Li)，那么创建一个新簇只包含Li，否则将Li加入到Lk所在的簇当一篇新的论文到达时，如果该论文的主题不是新的，那么它将被加入到现有的某个簇中。如果它与先前的论文有足够的不同之处，那么它成为了一个新簇的种子。该聚类算法是一种增量的算法，因此，它可以在线的处理论文。这个属性使得该算法非常适合于数字图书馆。4.2 主题热度评估在主题发现过程之后，得到表示研究主题的簇。接下来，每个主题被赋予一个热度值。对主题簇i中的一篇论文Lij，使用下面的公式来评价其热度：Hotness(Li j ) =pi(tc t p )(5)其中tc是当前的时间(本文中以天为单位)；tp是Lij

19、发表的时间，pi是Lij所在期刊的影响因子。本文使用SCI所公布的影响因子。我们基于这样的假定：新发表的影响力高的文章更能够代表当前的研究趋势。这样，一个主题簇的热度按照下面的公式计算：TopicHotness(Ci ) = Hotness(Lij )jCiNdis(Lij )(6)i其中，Ni是簇Ci中的论文数量，dis(Lij)是Lij与最靠近簇i质心的文档的距离。最后，热度最高的 k 个簇被看作是热点研究主题。本文使用词频统计的方法来为每个主题提取关键词，这些关键词被用作表示主题的标签。5.实验及分析本章将使用两个实验来验证本文两个主要部分的有效性。首先，为了评估本文提出的结构化论

20、文相似度计算方法用来计算主题相似度的性能，我们使用若干篇论文作为查询，通过不同的相似度计算方法从论文集中检索主题相似的论文。然后，使用 PN 来进行评估。在第二个试验中，将测试热点研究主题提取算法的效果。5.1 实验数据集本文为实验建立了两个实验数据集，称为 Data I 和 Data II。Data I 的数据是从 FSKD 2008 论文集中收集的。该论文集共有 664 篇论文，这些论文已经被专家分成了 56 个主题。我们去掉了包含论文数量太少的主题，为实验一选择了 18 个主题。这 18 个主题的平均论文数量为 21。对于 Data I，同一个主题内的论文被看作是相同或相关的。我

21、们从每个主题中随机提取一篇论文作为查询，同一主题内的其他所有论文被看作是主题相关的，不同主题中的论文被看作是不相关的。除去查询论文的所有论文被看作用来产生查询结果的文档集。对于 Data II，我们从 IEEE Explorer、Citeseer 等数字图书馆中收集了信息检索领域 178 篇论文，所有这些论文都是在 2006 年 8 月到 2008 年 8 月之间发表的。本文使这个数据集来证明热点研究主题提取方法的效果。5.2 数据预处理对于两个数据集中的数据，本文使用下面的步骤进行预处理： 1)使用 pdfbox14将论文从 pdf 格式转换成文本文件。2)提取每篇文章的题目、摘要、

22、关键词，正文内容和参考文献。3)使用一个停止词列表去除停止词。4)使用 P-Stemming 算法进行词干提取。5.3 实验结果本文使用 PN 来评估提出的结构化论文相似度的有效性。一个查询的 PN 精度按照下面的公式计算：C I RP N =N其中，R 为我们的方法返回的前 N 个最相似的文档，C 是预先定义好的给定查询的相关文档集。然后，平均所有查询的 PN 值作为结果。表 1 实验中用到的相似度度量Tab.1 Similarity measures used in experiment.labelmeasureS1根据全文使用 Jaccard 度量计算S2全文(除去参考论文)使用 C

23、osine 相似度计算S3根据头部使用 Jaccard 度量计算S4使用结构化论文相似度在本文的实验中，使用 P5 和 P10 作为评价标准。表 1 列出了实验中所用到的相似度计算方法，不同方法的实验结果在表 2，图 4 和图 5 中列出。表 2 P5 及 P10实验结果Tab.2 Results of P5 and P10.S1S2S3S4P50.31980.33650.28640.4007P100.28770.31250.2520.3831P5 ResultP10 Result0.450.45precision0.350.350.250.250.15S1S2S3S4simil arity0

24、.15precision1234similarity图 4 P5 实验结果图 5 P10 实验结果Fig.4 Result of P5Fig.5 Result of P10在图 4 和图 5 中可以看出，尽管所有的准确率都不是很高，本文提出的相似度度量方法在 Data I 上的结果还是比其他的方法要好。S1，S2 和 S4 之间的结果比较表明根据科技论文的结构化特点进行相似度计算要比直接使用全文内容效果要好。S2 与 S4 的结果比较说明利用参考论文献的主题相似性可以提高相似度计算的精度。S3 与 S4 的比较表明，尽管论文头部是整个论文内容的很好的概括，并且正文内容是冗繁的，正文中的

25、一些细节信息仍然可以提高相似度计算的有效性。表 5 展示了本文提出的热点研究主题提取方法在 Data II 上的运行结果。我们列举了热度最高的 5 个主题。这个结果来自我们的原型系统科技论文在线管理系统，该系统使用本文提出的方法进行热点研究主题提取。然而，目前没有一个很好的基准或标准来验证该方法的正确性。但是我们发现使用该方法提取出的热点主题与 SIGIR 和 WWW 会议的部分主题相同。这两个会议是信息检索领域的顶级会议，可以代表当前的研究趋势。这一定程度上证明了我们的方法的正确性。在表 5 中我们可以看出，不同的主题往往会有很多共同的主题词。实验结果可能受我们人工数据收集过程的

26、影响，但是我们整个的收集过程是十分客观的。表 5 热点研究主题提取的结果Tab.5 Result of hot research topic detection.labelsHotnessNumber of literaturesXML, XPath Qurery, Schema inference, queryevaluation, XML query processing, structural data0.13817Image retrieval, multimedia, image classification,Clustering, semantic model0.09422Web

27、2.0, social networks, social discovery, graphpartitioning, community structure0.07113Ontology, semantic web, semantic similarity, WordNet,query0.0339Personalized Search, crawler, ontology, user model0.012296.结论本文首先提出了一种结构化的论文相似度计算方法，该方法非常适用于计算两篇科技论文的主题相似性。随后，提出了一种热点研究主题提取算法，来帮助数字图书馆的用户找到他们感兴趣领域的热点

28、研究主题。该方法首先根据结构化论文相似度计算方法将数字图书馆的论文集合使用单遍聚类算法划分成主题，然后为每个主题计算一个热度值，选择 k 个具热度最高的主题作为热点研究主题。最后，通过两个实验分别验证了结构化论文相似度计算和热点主题提取的有效性。在今后的研究工作中，我们将: 1)在计算两篇论文的相似度时考虑论文上下文的语义信息。2)尽管使用单遍聚类算法取得了不错的效果，但是该算法有一个缺点，即一旦一篇论文被归入一个主题，它再也不能被划分到另一个主题。然而该论文可能和其后的某个主题更为接近。如何避免这种情况是我们将要研究的一个问题。3)怎样为热点研究主题提取建立一个测试基准也是我们

29、未来的工作参考文献1 Jun Ma, YingNan Yi, Tian Tian and Yuejun Li. Retrieving Digital Artifacts from Digital LibrariesSemantically A. LNCS.3644 C, Springer, pp.340-349, 2005.2 C. Lee Giles, Kurt D. Bollacker, Steve Lawrence. CiteSeer: An Automatic Citation Indexing System A.Digital Libraries 98 - Third ACM Con

30、ference on Digital Libraries C, ACM Press, New York, pp. 8998,1998.3 Kurt D. Bollacker, Steve Lawrence, and C. Lee Giles. A System For Automatic Personalized Tracking ofScientific Literature on the Web A. Proceedings of the Fourth ACM Conference on Digital Libraries C, ACM Press, New York, pp. 10511

31、3, 1999.4 XiaojunWan. Beyond topical similarity: a structural similarity measure for retrieving highly similar documentsA. Knowledge and Information Systems C, Springer, London, pp.55-73, 2008.5 Kuan-Yu Chen, Luesak Luesukprasert, and Seng-cho T. Chou. Hot Topic Extraction Based on Timeline Analysis

32、 and Multidimensional Sentence Modeling A. IEEE Transactions on knowledge and data engineering C, IEEE Computer Society, pp.1016-1025, 2007.6 Ye Hui-min, Cheng Wei and Dai Guan-Zhong. Design and Implementation of On-Line Hot Topic DiscoveryModel A. Wuhan University Journal of Natural Science C, Vol.

33、1, pp.21-26, 2006.7 Lan You, et al. Exploring Various Features to Optimize Hot Topic Retrieval on WEB A. Proceeding of TheInternational Symposium Neural Networks 2004 C, Springer-verlag, London, pp.1025-1031, 2004.8 Lan You, Yongping Du, Jiayin Ge, Xuanjing Huang, and Lide Wu. BBS Based Hot Topic Re

34、trieval UsingBack-Propagation Neural Network A. Lecture Notes in Artificial Intelligence C, Springer-Verlag, Berlin pp.139-148, 2005.9 Baeza-Yates R, Ribeiro-Neto B. Modern information retrival M. ACM Press and Addison Wesley, 1999.10 Aslam JA, Frost M. An information-theoretic measure for document

35、similarity A. Proceedings of the 26th international ACM/SIGIR conference on research and development in information retrieval C, pp 449450,2003.11 Van Rijsbergen CJ. Information retrieval M. Butterworths, London, 1979.12 Mengjie Zhang, Xiaoying Gao, Minh Duc Cao, and Yuejin Ma. Neural Networks for S

36、cientific PaperClassification A. Proceedings of the First International Conference on Innovative Computing C, Information and Control, IEEE, 2006.13 http:/www.icnc- http:/www.pdfbox.org/Hot Research Topic Extraction in Digital LibrariesXiaohui Han, Jun MaSchool of Computer Science and Technology, Sh

37、andong Univ., Jinan (250101)AbstractAs the amount of scientific literatures in digital libraries increasing rapidly, it is difficult for researchers to gather, organize and make sense of the literatures they are interested in. Further more, the knowledge implicated in the digital libraries has not b

38、een discovered. In this paper, a novel approach is proposed to extract hot research topics during a time period from the corpus of digital libraries. A structural literature similarity is presented firstly. Then the similarity measure is used to group the literatures into topics. Finally, the hotness of each topic is evaluated and the topics with highest hotness are selected as hot research topics. The results of our experiments show the effectiveness of the approach.Keywords: Topic detection, Digital Libraries, Scientific literature, Similarity.作者简介：韩晓晖，男，1983 年生，博士研究生，主要研究方向为信息检索，文本挖掘。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数字图书馆中的热点研究主题提取

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数字图书馆中的热点研究主题提取1.doc
链接地址：https://www.31doc.com/p-3626122.html