《数据挖掘技术在图书馆管理系统中的应用研究.pdf》由会员分享,可在线阅读,更多相关《数据挖掘技术在图书馆管理系统中的应用研究.pdf(73页珍藏版)》请在三一文库上搜索。
1、北京工业大学 硕士学位论文 数据挖掘技术在图书馆管理系统中的应用研究 姓名:戚敏 申请学位级别:硕士 专业:软件工程 指导教师:蔡建平;蔡启先 20070501 摘要 摘要 随着网络计算机技术的发展,图书馆读者对信息服务的及时性、精确性和个 性化有了更高的要求。为读者用户提供更好的服务,成为信息时代的需求,而数 据挖掘技术在图书馆中的应用将为图书馆在数字资源的组织和管理、服务质量的 提升和服务方式的拓展等方面提供技术支持,并显示出强大的生命力。 本文研究了数据挖掘在图书馆管理中应用,关联规则挖掘、时间序列挖掘在 图书馆管理系统的应用,提出了在图书馆管理系统中利用关联规则挖掘发现读 者对资源的借
2、阅模式的设计思想,对关联规则挖掘进行了较深入的研究,分析研 究了关联规则经典A p r i o r i 算法,并对A p r i o r i 算法加以改进,采用一种新的改进 的关联规则数据挖掘算法,提高了算法效率。基于对广西工学院图书馆的 I n t e r l i b 图书馆集群管理系统的分析,设计了图书馆数据挖掘系统,对本馆图书 流通子系统一部分业务数据展开挖掘,并对此数据挖掘系统进行了简单的实现。 系统以本校图书馆的读者数据库为数据来源,先经过数据预处理过程,包括数据 清理、数据转换、再经过数据挖掘,采用改进的A p r i o r i 算法实现了对图书馆读 者借阅数据的挖掘,找出相关规
3、则。通过对读者借阅事务的分析,来为读者推荐 所需图书,从而提高读者的满意度,同时也在图书馆采购、图书馆藏书建设等方 面发挥重要的指导作用。采用时间序列挖掘方法对图书馆流通数据库进行挖掘得 到了图书馆每日及每月流通量周期性规律,以便科学安排流通部门的全年和每天 的工作。最后分析评价了挖掘出来的结果及其含义,结果表明,本文的研究与设 计为图书馆信息服务、信息资源采集、图书馆工作的科学安排提供了一个科学决 策的有效方法。 关键词数据挖掘;关联规则;时间序列分析;图书馆;管理系统 A b s tr a c t W i t ht h ed e v e l o p m e n to fc o m p u
4、t e rn e t w o r kt e c h n o l o g y , t h er e a d e r sh a v em u c hh i g h e r d e m a n do fa c c u r a c ya n dp e r s o n a l i z e di n f o r m a t i o ns e r v i c e s I ti sb e c o m et h en e e d so f t h et i m et op r o v i d eb e t t e rs e r v i c et or e a d e m D a t am i n i n gt
5、e c h n o l o g yw i l lo f f e rt h e s k i l l si nt h eo r g a n i z a t i o na n dm a n a g e m e n to fd i g i t a lr e s o u r c e s ,a n di ta l s ow i l lp r o v i d e t e c h n i c a ls u p p o r to ne n h a n c et h eq u a l i t yo fs e r v i c ea n de x p a n ds e r v i c ea r e a s ,i ts
6、 h o w s ag r e a t v i t a l i t y T h i sp a p e r s t u d i e st h e a p p l i c a t i o no fd a t am i n i n g i nl i b r a r y m a n a g e m e n t ,a n da l s os t u d i e st h eu s i n go fa s s o c i a t i o nr u l em i n i n ga n dt i m es e r i e s m i n i n gi nl i b r a r ym a n a g e m e
7、 n ts y s t e m s W h e nw eu s e dA s s o c i a t i o nR u l eM i n i n gi n l i b r a r ym a n a g e m e n ts y s t e m s ,w ed i s c o v e r e dt h et h o u g h to fd e s i g n i n gt h eb o r r o w e d p a t t e r n so fr e a d e r s I d i dm o r ed e e pr e s e a r c hi nA s s o c i a t i o nR
8、u l eM i n i n g ,a n dI a n a l y z e dt h ec l a s s i cA p r i o r ia l g o r i t h mo fA s s o c i a t i o nR u l e ,t h e nIc h a n g e dA p r i o r i a l g o r i t h m ,a n di n t r o d u c e da n e wi m p r o v e dA p r i o r ia l g o r i t h mo f A s s o c i a t i o nR u l ed a t a m i n i n
9、 g I ti m p r o v e st h ee f f i c i e n c yo ft h ea l g o r i t h m A c c o r d i n gt ot h ea n a l y s i st h e i n t e g r a t e dM a n a g e m e n tS y s t e mo f o u rI n t e r l i bl i b r a r y , i td e s i g n e dd a t am i n i n gs y s t e m i nt h i sp a p e r Ie x c a v a t e dap a r t
10、o fb u s i n e s sd a t ai nb o o kc i r c u l a t i o ns u b s y s t e m ,a n d m a d et h i sd a t am i n i n gs y s t e mb e c o m eat r u t hs i m p l y T h ed a t ao ft h es y s t e m o r i g i n a t e df r o mr e a d e r s d a t a b a s ei nO U rl i b r a r y , i tw e n tt h r o u g hd a t ap
11、r e t r e a t e d , i n c l u d e dd a t ac l e a n i n g ,d a t ac o n v e r s i o n ,a n dt h ed a t am i n i n g Iu s e dan e wA p r i o r i a l g o r i t h mt h a tr e a l i z e dt h em i n i n go ft h eb o r r o w e dd a t ao ft h el i b r a r yr e M e r s ,a n d I f o u n dt h ea s s o c i a t
12、 i o nr u l e s T h r o u g ht h ea n a l y s i so fr e a d e rb o r r o w e db u s i n e s s ,w e i n t r o d u c es o m eb o o k sw h i c ht h er e a d e r sn e e d T h e r e b yi tw i l le n h a n c es a t i s f a c t i o no f r e a d e r s I ta l s ow i l lp l a ya ni m p o r t a n tr o l ei nt
13、h el i b r a r yp u r c h a s i n ga n db o o k c o l l e c t i n gc o n s t r u c t i o n T h r o u g ht i m es e r i e sd a t a b a s em i n i n g ,Ih a v ee x c a v a t e dl i b r a r y c i r c u l a t i o nd a t a b a s e ,a n dIg o tt h eP e r i o d i cr u l e so ft h ed a i l ya n dm o n t h l
14、 yi nl i b r a r y c i r c u l a t i o n , i ti sv e r yc o n v e n i e n tt oa r r a n g et h ed a i l ya n dy e a r l yw o r kr e a s o n a b l y T I F i n a l l y ,i te v a l u a t e dt h ef i n d i n g st h a tw em i n e da n dt h e i r si m p l i c a t i o n s ,t h er e s u l t s s h o wt h a t
15、t h es t u d i e sa n dt h ed e s i g n si nt h ep a p e rp r o v i d eas c i e n t i f i ca n de f f e c t i v e m e t h o do fp o l i c y m a k i n gi nl i b r a r yi n f o r m a t i o ns e r v i c e sa n dt h cc o l l e c t i o no f i n f o r m a t i o nr e s o u r c e s K e yw o r d s :D a t am
16、i n i n g ;A s s o c i a t i o nr u l e ;T i m es e r i e sa n a l y s i s :L i b r a r y M a n a g e m e n tS y s t e m I I I 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授
17、权的说明 ! 1 1 乏? 9 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:瞧导师签名:弛 第1 章绪论 第1 章绪论 1 1 论文的研究背景及意义 随着信息时代的到来,网络概念逐渐深入普及,信息处理技术也日新月异。 目前,图书馆利用的信息管理系统可以高效地实现传统图书馆信息管理中的数据 的录入,查询、统计、流通借阅等功能,相对于从前的手工加工管理时代,可以 说是一次飞跃,但图书情报部门的工作仍然主要是对
18、信息的载体进行管理,以提 供信息的外在特征服务为主。现在我们生活在一个网络化、信息化的时代,信息 化的浪潮席卷全球,信息产生的渠道是越来越多,信息更新的频率日益加快,各 行各业均产生了数以亿计的数据库,且W e b 上蕴含着丰富的具有巨大潜在价值的 知识、信息。面对大量的信息资源,人们却很难找到需要的信息,发现有用的知 识,出现“信息爆炸但知识相对贫乏”的现象。再者,人们对信息的利用要求已 经不止满足一般文献的检索和原件的获取,而且还要求图书馆等信息管理服务部 门能对信息内容进行深入分析,从大量的数据中挖掘出数据背后隐藏的、内在的、 有用的知识或信息,发现数据中存在的关系和规则,为教育、生活、
19、学术研究等 提供深层次的知识、信息服务。信息来源多样化和信息存贮形式多样化,数据的 管理技术提出了新的挑战。首先,目前的计算机处理能力用传统的数据库技术无 法实现更高层次的各种类型的信息分析处理任务。而且,事务处理和分析处理二 者的性质大不相同。人们越来越不满足于数据库技术以单一数据库进行简单的事 务处理。管理人员制定决策所需要的多层次、多方面、及时、快捷、便利的信息 需求也得不到满足。其次,以前系统中所遗留的不一致性和不连续性也增加了系 统维护的时间和费用。为了尽可能降低物理的不一致与语义的不连续问题,这就 要求有一种弥补数据体系结构的方法。于是以上问题吸引了不少专家去研究,数 据仓库技术便
20、应运而生。数据仓库是一种新的存储管理技术,能够很好地将所必 需的大量分散的历史数据和详细的操作数据,经过处理转换成集中统一、随时可 用的信息。因此,采用数据仓库技术组织、处理、分析和存储信息,是图书馆信 息技术发展的一种趋势,必将在信息服务中发挥重要作用。随着数据库技术、人 工智能、数理统计和并行计算等技术的发展与融合,数据挖掘( D a t al l l i n i n g ,D M ) 技术应运而生。数据挖掘在金融业、零售业、医疗和电信等领域已经得到广泛的 苎奎三些盔兰三堡鎏圭兰兰鲨吝 应用,数据挖掘技术在图书馆中的应用将为图书馆在数字资源的组织和管理、服 务质量的提升和服务方式的拓展等方
21、面提供了技术支持,并显示出强大的生命 力。因为图书馆的信息服务也可以被看作是一种市场营销,通过收集、加工和处 理涉及信息消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费 习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为, 然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统 的被动式服务相比,不仅能使当前用户满意而且能使更多的潜在用户转化为当前 用户,有利于图书馆的进一步发展。这一技术在图书情报信息处理方面有着非同 寻常的意义和发展潜力。 1 2 国内外研究现状 1 2 1 数据挖掘研究现状 数据挖掘就是从大量数据中发现隐含的知识和模式。它既
22、是一种知识获取技 术,又是一个数据处理过程。世界上对数据挖掘的正式研究始于1 9 8 9 年8 月举 行的第一届K D D 国际学术会议,数据库中的知识发现K D D ( K n o w l e d g eD i s c o v e r y i nD a t a b a s e ) 在该次会议上被提出。到目前为止,K D D 国际研讨会的研究重点逐 渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之 间的相互渗透。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊 也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。国际 权威机构G a r t n e
23、rG r o u p 在一次高级技术调查将数据挖掘和人工智能列为“未来 三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体 系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位“1 。 与国外相比,我国的数据挖掘研究起步较晚。但数据挖掘和知识发现的研究 已经引起了学术界的高度重视,1 9 9 7 年我国国家自然科学基金首次支持对该领域 的研究项目。许多科研单位和高等院校,相继开展有关的理论及其应用研究,取 得了较丰硕的研究成果。现在许多专家研究了许多数据挖掘的算法,各种算法层 出不穷,研究的比较成熟的是关联规则算法,另外还有决策树,聚类分析等等。 数据挖掘的发展程度类似于
24、2 0 世纪7 0 年代数据库的发展程度,亟待理论的成熟和 规范的数据挖掘语言的出现。近年来,一些企业在采用数据挖掘软件方面进行了 有益地尝试。S A S 公司的E n t e r p r i s eM i n e r 就是一种在中国企业中得到实际采用 2 第l 章绪论 的数据挖掘软件。该系统在中国比较典型的数据挖掘应用,包括在上海宝钢配矿 系统中的应用和中国铁路在春运客运研究中的应用等圆。 经过十几年的发展,对数据挖掘的研究从最初表面的、孤立的问题向系统 的、全面的方向发展。目前对数据挖掘的研究围绕理论、技术和应用三个方面展 开。 理论方面的研究包括:数据和知识的表示,如元数据的表达;文本数
25、据和多 媒体数据的模型构造;知识发现不确定性管理;挖掘结果的评价;数据挖掘的算 法复杂性和效率分析;海量数据集的统计学研究等。 技术方面的研究主要包括数据挖掘方法、数据挖掘算法和数据挖掘过程,目 标是建立完整的数据挖掘理论体系,建立通用、有效的处理模型,用科学的方法 论指导发现知识的过程,使之成为一种主流技术。数据挖掘是从人工智能发展而 来,因此人工智能中的许多技术成果都可以移植到数据挖掘中来。挖掘方法包括 分类、聚类、预测和评估、相关性分析、检索和优化等。数据挖掘算法包括空间 数据、文本数据和多媒体数据的数据挖掘算法、并行和分布式数据挖掘算法等。 数据挖掘过程包括数据预处理技术,如数据去噪,
26、有效样本选取、数据缩减等, 此外还有知识的评估和解释、数据挖掘的可视化等。 应用研究包括开发各种数据挖掘系统和工具及其在各个行业中的应用,如股 票价格分析与预测,金融风险分析,信用卡欺诈分析,气象预报,生物工程等。 随着I n t e m e t 的普及和发展,对I n t e m e t 数据的挖掘,如数字图书馆站点访问模 式分析,成为当今一个十分活跃的应用领域研究方向。另外还包括一些有关数据 保密、数据安全方面的问题。目前数据挖掘的典型应用领域包括:市场允折和 预测:比如英国B B C 广播公司进行的收视率调查,大型超市销售分析与预测, 销售渠道与价格分析等。工业生产:主要用于发现最佳生产
27、过程。金融:采用 统计回归式神经网络构造预测模型,如自动投资系统( A u t o m a t e dI n v e s t o r ) ,可预 测最佳投资时机。科学研究:比如贝克( ( B a c o n ) 对于天文定理的发现、地震发 现者( Q u a k f m d e r ) 用于分析地壳的构造活动等。 ) W e b 数据挖掘:如站点访问模式 分析,网页内容自动分类、聚类等。工程诊断:数据挖掘作为一种新的知识发 现手段,还引起了工程诊断领域的重视,许多国家和研究机构都在监测诊断项目 中加入了对数据挖掘的研究。1 9 9 2 年,加拿大国家研究委员会D 浓C ) 启动了一个 北京工业
28、大学工程硕士学位论文 集成诊断项目I D S ( I n t e g r a t e dD i a g n o s t i cS y s t e m ) ,目的是为先进诊断技术的研究、 开发、测试和设备维护提供决策支持,解决大型企业分散信息的准确获取、知识 提取、设备维修和故障诊断的决策支持等问题。在欧洲,挪威科技大学开发了一 个基于粗糙集理论的数据挖掘工具包R O S E T T A 。在美国,数据挖掘在诊断工程 领域的应用己经步入实用化阶段。如A c l n o s o f t 公司的K A T E 软件,用归纳方法 从大量数据中提取隐含知识,自动生成决策树,为诊断决策提供有力支持。此外,
29、 还有英国爱伯丁大学( A b e r d e e n ) 计算机系开发的老虎系统( T I G E R ) ,用于汽轮机 故障智能诊断;西安交通大学和新加坡国立大学用粗糙集理论对故障属性进行约 简,香港城市大学用数据挖掘技术对发电机组的监测数据进行过滤【3 】。 1 2 2 数据挖掘在图书馆管理中的应用研究现状 我国图书馆自动化发展已有2 0 多年的历史,由小型机系统发展到图书采、编、 检、流通、阅览综合管理系统,并逐步向网络化系统发展。随着图书馆管理系统 功能的日益发达,网络化的日益临近,图书馆作为社会信息中心的职能日益上升, 自动化建设也有了新的要求。首先,图书馆要处理和提供的信息更多、
30、更新、更 广泛、更复杂。为了避免陷入“数据丰富,但信息贫乏”的局面,图书馆有必要 增强对信息的处理能力以及对信息资源的组织能力,尤其是对海量信息的深层次 的开发,提取表面上庞杂无序的信息的内在联系供读者使用。其次,随着读者信 息水平和信息要求的不断提高,向读者提供更主动的和个性化的信息服务被摆到 图书馆的面前。再次,在图书馆现有的管理系统中每年、每月、每天产生着大量 的统计数据和表单,它们对图书馆的采购、馆藏、咨询、流通等业务有着很强的 指导作用。然而,仅有数据并不能直接应用于各项工作,要从这些材料中分析、 统计出有用信息并非易事,快速增长的、过多的数据收集往往会变成“数据坟墓”, 失去其指导
31、价值。这种种要求都呼唤着一个强有力的数据采集和处理工具介入到 图书馆管理系统中来,为图书馆工作提供技术支持和决策管理支持。而数据挖掘 就是这样一种新兴的技术。 数据仓库及数据挖掘技术在图书馆的应用主要体现在信息资源的优化建设、 文本数据的自动化处理、信息服务质量的提升、业务范围的拓展方面啪“。 1 2 2 1 信息资源的优化建设a 可以通过对图书馆管理系统的借阅、流通状况、 检索请求及馆藏书目库进行分析挖掘,按类统计文献频繁借阅集,为有针对性地 4 第1 章绪论 补充和丰富信息资源提供决策支持。同时,对用户每次借阅的文献进行关联分析, 发现各类文献间的关联规则或比例关系,优化信息建设或馆藏布局
32、。b 实现信 息的自动化处理。针对图书馆的信息资源文本数据占据绝大多数的特点。利用文 本挖掘技术可实现文本数据的文本自动摘要、文档自动分类。其中文本自动摘要 的基本思想是应用统计算法,将原文中与主题密切相关的句子挑出来,自动生成 文本的摘要信息,该数据挖掘算法对于电子图书、电子期刊等文献信息尤显巨大 的应用价值。文档自动分类是根据文档所包含的文本数据的特征挖掘出该文档 的类别,将其归入合适的主题范围以供查询。 1 2 2 2 完善信息服务结构、提升信息服务质量,拓展信息服务的业务范围 ( 1 ) 提高信息获取速度为保证用户在尽可能短的响应时间内获取所需信 息,首先可以搜集用户每次阅读的专题集合
33、( 浏览模式) 作为一个事务,记录所有 用户每一次浏览过程构成事务库,再对事务库进行如下操作:a 利用关联规则 挖掘算法找到访问频率超过给定阈值的专题( 项目) 集,进而用分类算法把用户的 浏览模式与频繁项目集进行相似匹配,将具相似浏览模式的用户组织到一个服务 器上,从而减少服务器缓存和传输页面的数量;b 针对事务库中访问频率超过 某给定阈值的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知 识库,当用户浏览某页时,网络代理根据规则预先连接其关联页,从而提高响应 速度;C 也可利用W e b 挖掘得到用户访问序列模式,根据预测预先传输用户可能 阅读的页面。 ( 2 ) 提供主动的个性
34、化信息服务传统的图书馆信息服务都是用户先提出信 息需求,然后才得到相应的服务,都属于被动服务模式。数据挖掘技术的应用使 图书馆的信息服务由被动转向主动。利用W e b 挖掘发现用户的使用模式,根据用 户的兴趣模式提供主动的个性化服务。个性化服务包括:a 当发现新的相关信 息或书目数据时,及时告知用户;b 当用户访问时,根据用户的兴趣度,推介 相关专题信息;C 跟踪用户的兴趣变化模式,发现用户的最新需要;d 根据用 户的兴趣,提供相应的预测报告、动态分析等。应用兴趣模式算法可判断并争取 潜在用户,将他们转化为当前用户。 1 2 2 3 为图书馆提供决策管理支持传统的图书馆决策方式大多依靠经验进行
35、 决策,存在主观、片面、盲目等诸多问题,无法适应时代发展的要求,采用数据 北京工业大学工程硕士学位论文 挖掘技术能够为领导层的科学决策提供强有力的保障。a 数据挖掘能将涉及图 书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换,形成 集中统一、随时可用的决策信息,防止因信息不足造成的错误决策。b 利用数 据挖掘系统提供的o L A P 工具可以对集成数据进行多维分析比较,对决策假设进行 审查和验证,提高决策的可靠度和可行性,达到合理利用有限资金、优化图书馆 资源配置的目的。C 数据挖掘工具可以从历史数据中找出潜在的模式,并在模 式的基础上自动作出预测。 1 2 2 4 为数字图书
36、馆的建立和发展提供技术支持所谓数字图书馆,就是对具 有高度价值的图像、文本、语音、音像、影像、软件和科学数据等多种媒体信息 进行收集,组织规范性的加工,进行高质量保存和整理,实施知识增值,并提供 在广域网上高速横向跨库连接的电子存取服务。同时还包括知识产权、存取权限、 数据安全管理等范畴,还可以认为数字图书馆是超大规模的、可以跨库检索的海 量数字化信息资源库。2 l 世纪是数字图书馆的时代,但在数字图书馆的研究和发 展中存在着巨大的技术困难和障碍,如此海量的信息资源,运用何种技术对之进 行有效的存储、管理和利用昵? 我们认为数据仓库可以为数字图书馆的建设提供 关键技术。数据仓库技术作为近年来刚
37、被提出的新技术,在电信、金融等领域已 经有了较广泛的应用,并发挥了重要作用,同时,数据仓库技术本身也获得了快 速发展。尽管目前数据仓库技术在数字图书馆的应用研究上处于起步阶段,但在 t 知识发现、数据挖掘、组织和分析等方面有着巨大的发展潜力。在数字图书馆的 研究开发中,元数据的界定与自动抽取、多媒体对象数据的压缩和还原、海量信 息资源和超大规模分布式数据库的快速存取、分布式资源库可互操作性的实现、 不同层次多个分布式资源库的快速横向跨库查询以及基于并行处理的高速查询 引擎的实现等,数据仓库技术都是必不可少的关键技术。 数据仓库及数据挖掘技术的引入,将使图书馆的信息资源得以进一步的优化 和丰富,
38、信息服务的质量发生质的飞跃,业务服务的范围也将进一步拓展,从而 为图书馆带来可观的经济效益和社会效益。数据挖掘技术作为信息技术构架的新 焦点,虽然在图书馆领域的应用还处于起步阶段,但基于其在数据的组织、分析 和知识发现等方面的巨大优势和对信息的深层挖掘能力,将日益显示出强大的发 展潜力和广阔的应用前景。但数据挖掘是一种新兴的智能信息处理技术,它的发 6 展面临着许多的难题。同样,在图书馆的应用中如何将数据挖掘系统作为基本的 数据分析模块与图书馆的原有业务系统、数据库系统和w W w 资源有效集成? 以实现 集成的基于数据挖掘的信息处理环境,是我们面临的难题,有待进一步研究和探 索。 1 。3
39、研究的内容及创新点 研究的内容:随着数据库技术的迅速发展以及数据库管理系统在图书馆的广 泛应用,在图书馆,积累了大量的读者对资源的历史访问数据,这些数据背后隐 藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用 这些数据为读者服务。但是,由于用户量的巨大,数据库的容量也是巨大的,单 靠人工分析,并不能从中找出更多有用的信息,使图书馆工作人员不能及时了解 用户行为和馆藏资源的利用效果,信息资源采购、业务工作效率、服务质量等方 面工作不能及时得到科学的调整。因此,要从这些材料中分析、统计出有用信息 才能使快速增长的、过多的数据收集不会变成“数据坟墓”,从而具有指导价值。 由于图
40、书馆管理系统缺乏数据的集成和分析,缺乏挖掘数据背后隐藏的知识的手 段,使图书馆对读者信息需求的捕获停留在比较浅显的层面,更谈不上辅助决策 和知识的自动获取,本文以广西工学院图书馆管理系统为试验平台,提出使用数 据挖掘技术为图书馆的业务管理工作提供决策参考的思想。拟重新设计图书馆的 信息流图,增加数据挖掘系统,对图书流通子系统一部分业务数据展开挖掘,由 它挖掘出计算机中心保存的读者流通数据的内涵,如使用关联挖掘技术对这些读 者对图书馆文献资源的历史访问数据、借阅数据进行分析,挖掘隐藏在文献借阅 历史数据背后的有用的规则和潜在的信息,从中发现读者对资源的借阅模式。再 将得到的结果反馈回图书馆的采购
41、部门、使用部门以及馆长,从而可以有针对性 的开展对读者的服务工作,也使图书馆的信息流处于良性循环当中。 本文考虑运用数据挖掘的方法,探究读者的读书倾向,从海量的图书馆数据 库中运用关联规则分析,时间序列分析等挖掘方法,找出数据库中蕴藏的对于管 理有用的规则,描述,预测等等,挖掘出潜在的有用信息,为日常图书馆的业务 信息的管理提供决策参考。其中包括两方面的内容: ( 1 ) 使用关联挖掘技术对广话工学院图书馆学生的借阅历史数据进行分析, 从中发现读者对资源的借阅模式。如:通过对借阅记录中不同类型如不同院系、 j j 奎三些盔耋三堡翟圭兰竺鲨銮 专业的读者和书籍的关联分析,找出读者的借阅习惯,进而
42、建立模型并提供推荐 服务:对信息资源借阅历史进行关联分析,如果发现有很多读者阅览了A 文献同 时也会阅览B 文献,我们可以将B 文献推荐给阅览A 文献的读者。这些规则的发现 对提高数据资源的利用率,吸引读者到馆借阅,提高读者忠诚度,为读者提供个 性化服务有着重要的意义。还可以为图书管理员购书提供服务信息,有利于合理 配置图书馆的文献资源和提高资源的利用率。 ( 2 ) 使用时间序列挖掘的方法,对本图书馆流通数据库挖掘,得出图书馆 流通借阅服务每日、每周及每年流通量的一个周期性规律,为流通部门日常工作 的安排提供科学的参考数据。 创新点:在图书馆管理中应用数据挖掘技术来为图书馆管理提供决策支持,
43、 国外已经开了这个先河。美国许多大学的图书馆人员联合本校计算机系的一些骨 干力量,已经作了一些实际的应用。但是这些方法的应用的最成熟、最广泛的领 域,还是在商业领域。A m a z o n 等网上电子书店早就运用数据挖掘的方法来研究客 户的购买趋势和兴趣爱好。在国内,许多学者都看到了这一技术在图书情报信息 处理方面非同寻常的意义和发展潜力,一些高校和国家图书馆的研究人员也在研 究数据挖掘在图书馆管理方面应用的课题。据本人对最近5 年相关的期刊论文、 学位论文的检索调查,发现对于这方面的研究,无论是从研究人员的数量,还是 成果方面来看,都是不太成熟的,停留在理论研究层面居多,实际应用的很少, 甚
44、至有较多研究还只是设想,没有深入的研究和实质的应用。本文把数据挖掘技 术应用到图书馆管理系统,实现了对图书馆借阅流通数据的关联挖掘和时间序列 挖掘,为图书馆的读者个性化服务、文献资源合理配置、日常工作科学安排提供 了管理决策的数据支持,提高了服务水平和质量。由于目前大部分高校图书馆使 用的管理系统具有相似的功能和缺陷,因而本文的应用研究具有较普遍意义。 1 4 论文结构概述 第1 章是绪论部分。阐述了论文的研究背景及意义,详细介绍了国内外数据 挖掘研究现状,对数据挖掘在图书馆管理中的应用进行了较深入的分析和研究, 并明确提出本文研究的内容。 第2 章是数据挖掘技术概述。介绍了数据挖掘的定义、数
45、据挖掘体系结构和 一般过程及数据挖掘方法的分类。对关联规则挖掘进行了较深入的研究。阐述了 8 第1 章绪论 时间序列分析的有关方法。 第3 章是图书馆管理系统的数据挖掘需求分析及关键技术。阐述了在图书馆 管理系统中利用关联规则挖掘发现读者对资源的借阅模式的必要性,并作了需求 分析。作了利用时闯序列挖掘的方法找出图书馆图书流通量的周期性规律的需求 分析。说明了如何应用关联规则挖掘对信息资源借阅历史进行关联分析及应用时 间序列挖掘的方法对图书馆借阅流通数据库进行挖掘的基本思想。 第4 章是基于图书馆管理系统的数据挖掘系统的设计。首先分析了广西工学 院图书馆I n t e r l i b 图书馆集群
46、管理系统的架构、功能等,指出要在图书馆管理系 统中增加数据挖掘系统,对图书流通子系统一部分业务数据展开挖掘。其次是图 书馆数据挖掘系统设计,包括数据存储、数据挖掘引擎和图形用户界面结构设计, 最后描述了数据挖掘流程的四个阶段的任务,即明确目标、数据获取与处理、数 据挖掘、产生规则和知识,并指出要注意的问题。 第5 章是改进的A p r i o r i 算法的研究。针对高校图书馆数据库随学生逐年增长 呈指数增长的情况,使用经典A p r i o r i 算法挖掘系统的效率会非常低,因而采用了 一种新的改进的关联规则数据挖掘算法,通过数据试验分析表明,改进算法比原 有的算法的效率大幅度提高。 第6
47、 章是图书馆数据挖掘系统的实现与评估。在图书馆数据挖掘系统的实现 部分,详细说明了数据的获取和预处理的方案及结果;在算法的选择以及挖掘的 过程部分,分别采用了关联规则挖掘时间序列挖掘,系统实现采用v c + + ,用户界 面使用的是图形化界面,采用A p r i o r i 的改进算法实现了对图书馆读者借阅数据 的挖掘,采用时间序列挖掘方法对图书馆流通数据库进行挖掘得到了图书馆每日 及每月流通量周期性规律。最后是对挖掘效率进行了分析评估及对挖掘结果进行 了分析。 9 第2 章数据挖掘技术概述 第2 章数据挖掘技术概述 2 1 数据挖掘的定义 公认的是w J F r a w l e y 等给出的
48、定义m :数据挖掘,就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中,提取人们感兴趣的知识,这 些知识是隐含的、事先未知的、潜在有用的信息,提取的知识可表示为概念 ( C o n c e p t s ) 、规则( R u l e s ) 、规律( R e g u l a r i t i e s ) 、模式( P a t t e r n s ) 、约束 ( c o n s w a i n m ) 、可视化( V i s u a l i z a t i o n ) 等形式。此定义把数据挖掘的对象仅定义为数 据库。广义地讲,数据挖掘是在一些事实或观察的集合中寻找模式的决策支持过 程。
49、也就是说,数据挖掘的对象不仅是数据库,也可以是文件系统,或其他任何 数据集合,比如数据仓库、关系数据库、事务数据库、面向对象数据库、对象 关系数据库、空间数据库、时间数据库、文本数据库、多媒体数据库、W e b 数据 库等等。 从决策支持的角度看,数据挖掘是一种决策支持过程,主要基于人工智能、 机器学习、统计学和数据库技术等多种技术,能高度自动地分析数据源,进行归 纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整行为 策略,从而减少风险,辅助作出正确的决策。它是提高商业和科学决策过程质量 和效率的一种新方法。 数据库中的知识发现”3 ,简称K D D ( K n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。它 泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用K D D 来 描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用 数据挖掘( d a t am i n i n g ) 来描述使用挖掘算法进行数据挖掘的子过程。一般认为, 数据挖掘是知识发现过程中的一个特定步骤,它用专门算法从数据库中抽取模 式,然后通过系统解释和评价模块将模式转换
链接地址:https://www.31doc.com/p-3582172.html