《在个性化信息检索系统中的应用研究.pdf》由会员分享,可在线阅读,更多相关《在个性化信息检索系统中的应用研究.pdf(68页珍藏版)》请在三一文库上搜索。
1、 摘要 摘要 随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们 面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。虽然传统信 息检索技术在一定程度上满足了人们的需要,但却存在着低查准率和低查全率的 问题。多数商业搜索引擎提供的信息检索服务,由于侧重通用性而不能满足不同 背景、不同目的用户的查询请求。针对这种现状,作者研究了基于数据挖掘的个 性化信息检索系统。 论文首先对搜索引擎系统的研究现状和发展趋势进行论述,探讨了将数据挖掘 技术应用于个性化信息检索系统的可行性,在此基础上提出了一个基于数据挖掘 的个性化信息检索系统的总体框架模型。接着对该系统的主要功能进行较深入
2、的 描述,对该系统的的关键技术进行较深入的研究。最后给出了一种基于A p r i o d 的 类别关联规则的挖掘算法。仿真结果表明基于A p r i o r i 的类别关联规则的挖掘算法 能够挖掘出用户的个性化信息,同时表明用户个性化信息的质量好坏与支持度值 的大小密切相关。 关键词:数据挖掘个性化信息检索搜索引擎聚类挖掘分类挖掘关联规则 A b s 仃a c t A b s t r a c t W i t ht h ep o p u l a r i z a t i o no fW e b a p p l i c a t i o n ,n o to n l yt h ea m o u n to
3、 fi n f o r m a t i o no n t h ew e bg r o w sd r a m a t i c a l l yb u ta l s ot h ec o n t e n to fi n f o r m a t i o no nt h ew e bi su p d a t e d f r e q u e n t l y T h ep r o b l e mp e o p l ef a c ew i t ht o d a yi sn ol o n g e rl a c ko fi n f o r m a t i o n , b u t h o wt of i n dp e
4、 r t i n e n ti n f o r m a t i o nt os a t i s f yt h e i rs p e c f f i cn e e d s A l t h o u g ht os o m e e x t e n tt r a d i t i o n a lI n f o r m a t i o nR e t r i e v a l ( m ) t e c h n o l o g i e sC a l ls a t i s f yt h e s en e o d s ,t h e y a r es u f f e r i n gf r o ml o wr e c a
5、 l la n dp r e c i s i o n D u et o s t r e s s i n go nu n i v e r s a l i t y , t h e i n f o r m a t i o nr e t r i e v a ls e r v i c e sp r o v i d e db ym o s tc o m m e r c i a ls e a r c he n g i n e sc a n n o tg i v e s a t i s f a c t o r yr e s u l t sf o rq u e r i e sf m m c u s t o m
6、e r sw i t hd i f f e r e n tb a c k g r o u n da n di n t e n t i o n B e i n gd i r e c t e da g a i n s t t h i ss i t u a t i o n , t h ea u t h o rr e s e a r c h e do nt h eP e r s o n a l i z e d I n f o r m a t i o nR e t r i e v a lS y s t e mB a s e do nD a t aM i n i n g F i r s t ,t h et
7、 h e s i sc o n d u c t si n - d e p t ha n a l y s i so ft h ec u r r e u ts t a t u so ft h er e s e a r c ha n d d e v e l o p m e n tt r e n d so fi n f o r m a t i o ns e a r c h i n ge n g i n es y s t e m s , e x p l o r e st h ef e a s i b i l i t yo f a p p l y i n gt h et e c h n i q u e s
8、o fd a t am i n i n gt op e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls y s t e m s , a n dp r o p o s e sa na r c h i t e c t u r eo fp e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do nd a t a m i n i n g T h e n f u n c t i o n so ft h e s y s t e m
9、a n d c o r r e s p o n d i n gk e yt e c h n i q u e s f o r i m p l e m e n t i n gt h es y s t e ma l ea n a l y z e da n de x p l o r e dt h o r o u g h l y F i n a l l y , t h ea u t h o r g i v e sam i n i n ga l g o r i t h mb a s e do nc l a s sa s s o c i a t i o nm l eo fA p r i o r i ( a
10、l g o r i t h m ) S i m u l a t i o nr e s u l t si n d i c a t e st h a tt h em i n i n ga l g o r i t h mb a s e do nt h ea s s o c i a t i o nr u l e ( s ) o f A p r i o r i ( a l g o r i t h m ) c a nd i go u tc u s t o m e r s p e r s o n a l i z e di n f o r m a t i o n , a n dt h eq u a l i t
11、 yo f t h ep e r s o n a l i z e di n f o r m a t i o nh a sc l o s er e l a t i o n s h i pw i t ht h ed e g r e eo fs u p p o r t i n g K e y w o r d s :D a t aM i n i n g P e r s o n a l i z e dI n f o r m a t i o nR e t r i e v a l S e a r c h i n gE n g i n e C l u s t e r i n gM i n i n g C l
12、a s s i f i c a t i o nM i n i n gA s s o c i a t i o nR u l e s 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期: 加6 、 关于论文使用授权的说明 本人完全了解
13、西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本人签名: 导师签名: 盈螳 日期: Z 卯6 、 当婢叁 日期:塑蟹 第一章绪论 第一章绪论 1 1 选题研究背景 w w w ( 万维网) 自1 9 8 9 年诞生以来,经过十多年的迅猛发展,已经成为人类 社会信息资源的一个重
14、要组成部分。随着I n t e m e t ( 因特网) 技术的不断发展,社 会信息化进程不断加快,越来越多的信息资源实体开始选择W e b 作为其载体。当前, W W W 上约有8 7 5 万个网站,2 5 亿个网页。同时,网页数量还在以每天7 5 0 万的速度 增长1 1 1 1 2 1 。面对浩瀚的网络信息资源,用户要在信息海洋里查找信息,就好像大海 捞针一样,于是搜索引擎应运而生。搜索引擎是指对W V C W 站点资源和其它网络资 源进行标引和检索的一种信息检索系统,是网络信息检索工具的典型代表,是人们 网上冲浪时必不可少的工具之一。根据美国弗吉尼亚理工大学的调查,全世界有 8 4 8
15、 的W W W 用户通过搜索引擎获得自己所需的网页信息,其重要程度不言而喻。 然而,国外一次调查结果显示,约有7 1 的人对搜索的结果感到不同程度的失望。 作为互联网上仅次于电子邮件服务的第二大服务,搜索引擎的这种状况应该改变。 人们失望的原因有以下几点: 1 ) 大多数用户在使用搜索引擎时,不能完全掌握其使用技巧,无法将自己想 要查询的信息,用准确的关键词表达出来或者用规定的与、或式等其它格式表达 出来: 搜索引擎数据库的更新速度赶不上网页数量增长的速度; 用户输入了关键词后,返回的结果成千上万,非常丰富,但其中真正符合 用户需求的却不多,甚至没有。也就是说检索精度不高,即检索系统无法准确的
16、 找到用户真正所需的信息 钔搜索引擎按相关度输出的网页的排列顺序,没有考虑到每个用户的个体差 异。因此,不同背景不同要求的用户只要用同样的关键词去检索,得到的结果是 完全一样的。 所以,现在虽然有很多网站提供搜索引擎的服务,其中也不乏技术上先进的 搜索引擎,可是并不能完全满足用户的检索需求。如何改善信息检索系统的性能, 现有研究主要从两方面着手。一方面是从系统对提问和文档的处理及匹配算法方 面来改进;另一方面是从系统提供给用户个性化的信息检索结果来考虑。本论文 选题就是在这样的一个实际需求背景下提出的。 数据挖掘( D a t aM i n i n g ,D M ) 也称为数据库中的知识发现(
17、 K n o w l e d g eD i s c o v e r y i nD a t a b a s e K D D ) ,是近几年来随着数据库和人工智能发展起来的一门新兴的数据 2 数据挖掘技术在个性化信息检索系统中的应用研究 库技术,帮助人们从庞大、不安全、有噪声、模糊、随机的目标数据集合中抽取 出具有潜在价值的、可信的、新颖的、有效的并被人们理解的信息和知识模式, 以满足人们不同的应用需要。常用的数据挖掘技术有:关联规则法、粗糙集方法、 分类方法、聚类方法、人工神经网络、决策树法、遗传算法等。数据挖掘与传统 的数据分析( 如查询、报表,联机应用分析) 的本质区别是数据挖掘是在没有明
18、确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、 有效和可实用三个特征。先前未知的信息是指信息是预先未曾预料到的信息,即 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或 知识。实现检索的“个性化”是通过利用基于数据挖掘过程发现隐含的、未知的、 有效知识的方法来实现的。本文将以数据挖掘技术中的关联规则法、分类法和神 经网络方法为支撑来研究个性化信息检索系统。 1 2 论文选题的国内外研究现状 1 、数据挖掘技术应用研究现状 数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘( d a t a m i n i n g ) 都是一个很时髦的
19、词,尤其是在如银行、电信、保险、交通和零售( 如超 级市场) 等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销 ( D a t a b a s eM a r k e t i n g ) 、客户群体划分( C u s t o m e rS e g m e n t a t i o n C l a s s i f i c a t i o n ) 、 背景分析( P r o f i l eA n a l y s i s ) 、交叉销售( C r o s s - s e l l i n g ) 等市场分析行为,以及客 户流失性分析( C h u mA n a l y s i s ) 、客户信用
20、记分( C r e d i tS c o r i n g ) 和欺诈发现( F r a u d D e m O i o n ) 等。 下面列出几个具体应用实例: ( 1 ) 欺诈侦测 A T & T 使用根据数据挖掘开发的系统来侦测盗打国际长途的行为( B r a c h m a n 等,1 9 9 6 ) 由H N C 公司开发的F A L C O N 欺诈评估系统用于提示可能存在的盗用信用卡 的交易( B r a c h m a n 等,1 9 9 6 ) 。 ( 2 ) 卫生保健 M i t c h e l l ( 1 9 9 7 ) 描述了几种数据挖掘的原型用途,包括一个示例系统。它能
21、 够预测妇女处于高风险,需要C 区紧急救护。 M e r c k M e d c oM a n a g e dC a r e ,M e r c k 的一个医药保险和处方电邮订购单位,使 用数据挖掘来帮助找出对某种类型的病人减少费用但疗效相同的治疗方法 ( M c C a r t h y ,1 9 9 7 ) 。 ( 3 ) 商业和金融 第一章绪论 3 美国银行( B a n k o f A m e r i c a ) 使用数据挖掘侦测哪个客户正在使用美国银行 的哪种产品,以便他们能够提供正确的产品和服务组合,更好地满足客户的需求 ( M c C a r t h y ,1 9 9 7 ) 。 美
22、国西部通信( u sW e s tC o m m u n i c a t i o n s ) 根据诸如家庭的大小、家庭成员的 平均年龄和所在地这些特征,使用数据挖掘和数据仓库来确定客户的倾向和需要。 数据挖掘项目的结果用于签约新的客户及增加与新客户的交易额( M c C a r t h y , 1 9 9 7 ) 。 ( 4 ) 科学应用 T 射线爆是短暂的伽马射线反射,它来源于我们太阳系之外。有关事件的记录 已经超过1 0 0 0 次。科学界普遍认为存在两种T 射线爆。M u k h e r j e e 等( 1 9 9 8 ) 使 用统计聚类分析法发现了第三类T 射线爆。 M u k h
23、e r j 等( 1 9 9 6 ) 描述了几种科学应用,包括天空图像分析、金星上的火 山定位和地震的侦测。 ( 5 ) 运动和游戏 多伦多猛龙( T o r o n t oR a p t o r s ) 职业篮球队的助理教练B r i a nJ a m e s 使用 A d v a n c e dS c o u t ( I B M 专门为N B A 开发的一种数据挖掘工具) ,给出最好的运动 员搭配,以取得最好的比赛成绩( B a l t a z a r ,2 0 0 0 ) 。 游戏产业将客户赌博方式的历史模型结合起来,确定客户在光顾他们喜欢的 赌场时,会花( 输) 多少钱。 2 、个性化
24、信息检索研究现状 目前搜索引擎领域的商业开放非常活跃,各大搜索引擎公司都在投巨资研制 搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引 擎已经成为信息领域的产业之一。在这种情况下,对搜索引擎技术相关领域的学 术研究得到了大学和科研机构的重视。 ( 1 ) W e b W a t c h e r l 3 1 是一个非常著名的导航器,它使用一个称为信息查找助理的 主体,导航用户在网上的浏览过程。该系统通过对用户选择“链路”或站点进行 跟踪学习,学习产生哪个链接是可能到达目标信息的知识,通过采用这些知识来 帮助用户定位希望的信息,改善导航质量。 ( 2 ) P e r s o
25、n a lW e b W a t c h e r 4 1 是一个个性化代理,在用户浏览网页时提供帮助, 将用户感兴趣的链接突出显示出来。与W e b W a t c h e r 不同,P e r s o n a lW e b W a t c h e r f t “ 对特定用户,通过学习用户以前的浏览模式来得到用户兴趣模型。它无须用户参 与,不需要用户给出对网页的评价。在学习阶段,对用户访问过的网页进行分析 或更新用户兴趣模型。 ( 3 ) 德国的A l e x a n d e rP r e t s c h n e r 和美国的S u s a nG a u c h - - 起研究基于O n t
26、o l o g y ( 作为概念层次) 的个性化搜索1 5 I 。用户的个性化模型( 用户概貌) 建立为单个用 4 数据挖掘技术在个性化信息检索系统中的应用研究 户在W e b 上浏览历史的函数,是一个由大约4 3 0 0 节点( 使用空间向量模型) 组成 的加权概念层次,用户概貌根据用户在某一页面上停留的时间和页面的长度进行 修正。该系统目标是通过搜索结果与用户概貌的匹配来重新排序和过滤搜索结果, 从而提高搜索系统的性能。 ( 4 ) N e tP e r c e o t i o n 公司开发的N e tP e r c c r p t i o n s l 6 1 ,能够挖掘用户信息,从而为
27、实现个性化信息服务打下基础。 ( 5 ) w 勰h i n 舀o n 大学开发的s h o p B o t 【刀,S t a n f o r d 大学开发1 拘F a b I s 等,这些信息 检索系统都是一些基于A g e n t ( 代理) 的智能化的程序,主要通过学习用户的历史 关联信息,在线引导用户检索感兴趣的信息,这种为用户导航的方式每次只能浏 览一个站点,效率比较低,而且无法避免用户浏览以前已经浏览过而现在不需再 看的文档或链接。此外,由于没有有效地适应信息源信息变化的机制,不能及时 为用户提供新的信息,因而无法为用户快速定位感兴趣的主题。 ( 6 ) 中国科学技术大学的汪晓岩等设
28、计了一个面向I n t c r n e t ( 因特网) 的个性化 信息检索系统,采用分布式A g 曲t 技术唧,适用于I n t e r a c t 上文档的并行查询与检索。 该系统能够满足人们在信息检索时的个性化要求,反映了当前及今后信息检索领 域发展的趋势。该信息检索系统从用户的角度出发,为了满足不同用户个性化检 索的需求,采用相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波 算法,过滤掉了大量不相关文档,有效地消除了用户迷茫问题。采用用户与用户 A g e n t 以及用户A g e n t 与信息A g e n t 的交互机制,智能化适应用户兴趣的变化及环境 的变化。 N E
29、 c 研究院提出了个性化元搜索引擎原型系统1 1 l q u i m s 2 【埘,该元搜索引擎 可以根据用户输入的偏好优化查询关键词,并对搜索引擎返回的结果进行排序。 ( 8 ) 南京大学推出了个性化信息检W 能饲k D O L T R I - A g e n t l l l l ( D i s t a n c ea n d O p e nL e a r n i n g T r a i n i n g R e s o u r c eI n f o r m a t i o n ) ,该智能体可以学习用户的兴趣,并 根据学习到的用户模型提供个性化的信息。 ( 9 ) 浙江大学提出了一个个性化信息
30、检索系统N e t L o o k c r 【1 2 1 ,该系统综合采用 两层分布式智能体技术,相关反馈学习算法和信息过滤方法实现个性化检索。 3 、数据挖掘技术在个性化信息检索中的研究现状 ( 1 ) S c h e c h t e r 等人【”J 根据用户的访问路径模式预测用户未来可能的 i T ” ( H y p e r t e x tT r a n s f e rP r o t o c 0 1 ) 请求,让代理服务器执行预取操作,将相关W e b 页 放入其C a c h e ( 缓存) 中,以加快访问速度。 ( 2 ) C o o l c y d e 等A 5 6 和B u c h
31、 n e r l 5 7 1 等人利用数据挖掘技术从访问的l o g ( 日志) 文件中提取用户的访问模式,用于市场决策和智能推荐服务。 ( 3 ) N a s r a o u i S s l 等人采用聚类用户访问模式方法,预测用户未来的访问行为。 随着网络的发展,用户对个性化信息的要求越来越高,个性化信息检索已经 第一章绪论 5 是当前信息检索界的一个热门的研究课题。利用数据挖掘技术中能够挖掘出用户 个性化信息的特征,将数据挖掘技术应用于个性化信息检索系统中,以此来提高 用户个性化信息的质量,更大程度地满足用户个性化信息的需求。 1 3 选题研究的意义 一方面,数据挖掘是一个工具,它只有与具
32、体的应用相结合,才能发挥它的 价值。因此,数据挖掘技术从一开始就是面向应用的从目前发展形式来看,数 据挖掘技术在很多领域都得到了较为广泛的应用,如金融、医疗保健、零售业、 制造业和司法系统等。例如在市场营销领域,经典的啤酒和尿布之间的关联关系 就是数据挖掘在市场营销中应用的一个著名的案例。然而目前数据挖掘在个性化 信息检索中的应用研究却还较少 另一方面,从个性化信息检索的需要来看,数据挖掘作为获取信息的一个重 要方式,其在个人信息检索系统中所起作用也是愈来愈重要。例如在情报研究的 几个前沿领域,数据挖掘技术正日益凸显其价值。 ( 1 ) 数字图书馆l m l :数字图书馆是一种拥有多种媒体的数
33、字信息资源,是下一 代因特网上信息资源的管理模式,是一种能为读者方便快捷地提供信息的服务机 制数据挖掘在其信息最优化建设,信息自动化处理,信息服务质量的提升和业 务拓展上可以提供有力的技术支持,特别是在发展多媒体数据挖掘上,如何准确 描述多媒体信息特征,提高信息的自动化处理速度和查准率、查全率,仍然是有 待深入研究的问题。 ( 2 ) 竞争情报:越来越多的企业开始利用h t 啪c t 信息资源开展竞争情报服务, 并构建企业有力的竞争情报系统( c i s ,C o m p e t i t i v eI n t e l l i g e n c eS y s t e m ) 。竞争情报 数据库作为
34、系统中的重要组成部分,在系统开发过程中也得到了较大的发展。目 前提出的基于数据挖掘的竞争情报系统采用了数据挖掘技术,可对企业所需的竞 争情报进行重点挖掘,与基于传统决策支持系统的C I S 相比,这种系统具有强大的 数据深层次分析能力。 ( 3 ) 知识管理:知识管理是在日益加剧的非连续的环境变化情况下,被服务于 组织适应生存和提高能力等关键问题的活动。其实质在于它具体包容了信息技术 处理数据与信息的能力,以及人们创造和创新能力有机结合的组织过程。而数据 挖掘技术正是一种常用于知识获取的知识管理工具。它是从大量的数据中提取可 信的、新颖并能被人理解的模式的高级处理过程。通过知识管理的数据挖掘工
35、具, 人们可以在杂乱无序的凌乱数据中找到有用的知识。 结合以上两个方面,可以看出,数据挖掘作为种现代信息技术,应用到个 性化信息检索系统中,必将给个性化信息检索系统研究注入新的活力。我们应该 6 数据挖掘技术在个性化信息检索系统中的成用研究 以积极的态度,重视数据撼掘技术和个性化信息检索系统的结合研究,促进二赣 在实黢应雳串酌结台。 将数据挖掘技术引入到信息检索系统中的个性化信息获取上来,不仅可队为 现有问题找到新的突破口,丽且可以深化现有的服务,实现现有服务的增值。本 文缝合了当戆葭羲豹愚慧秘技米,挺爨7 一秘基予数据挖掘豹令拣纯售塞检索模 凝。该模型猩用户需求表达上结合数嘏挖掘的思想,通过
36、分析爝产的访溺日卷, 运用关联规则算法挖掘出用户个性化信息,优化查询请求。利用分类挖掘方法绪 合尾户个性识信患进行倍感过滤,给臻户提供个性他检索结果。搬据用户对梭索 缭采静反馈懑觅,逶过聚爨挖掘方法瓣添户豹令毪豫信惠送行芟新,不繇萼| 鬈糟 户进行操作,跟踪用户需求的变化,从简进行用户个性化信息的学习和优化。 1 4 本文的主瑟工作及论文结构 论文详细论述7 搜索弓l 擎相关的知识,提出了熬乎数据挖掘的个性化信息检 索系统( 翔隅B D M , P e r s o n a l i z e dI n f o r m a t i o nR e t r i e v a lS y s t e mB a
37、 s e dO l lD a t a M i n i n g ) ,研究了基于数据挖掘的个性化信息检索系统的设计思想、体系结构, 对该系统的各个功能进行详细的描述,并对系统中涉及的关键技术进行了较深入 豹磅究,最麓对系统中采羯楚类黝关联攥则算法进孬惦真,莠砖傍囊绩果进行分 析研究。 论文的篇章结构如图1 1 所示; 第一章,绪论。介绍了选题的研究背景和研究意义;综述了个性化信息检索 系统豹鋈内乡 研究魂狭;辩本文嚣主要疆究王箨稻论文结稳迸霉了谎饔。 第二章,搜索引擎系统概述。讨论了信息检索系统的基本理论知识。论述了 搜索引擎的定义、历史;从十个方面讨论了搜索引擎的评价标准;研究了国内外 疆索弓
38、l 擎弱筏炊,分提了瑷鸯援素弓l 擎鹣缺隆;最爨揭示了接索萼l 擎麴菱曩方趣, 其中一个重鼗的发展方向就是个性化检索。 第三章,P I R S B D M 系统。研究并提出了基于数据挖掘的个性化信息检索系统 ( P I R S B D M ) ;论述了P I R S B D M 系统的设计思想,体系结构;对系统中的主要功 缝进行7 谨缀的接述,童要包括“弼户”、“最筑羧索式选择装後萼| 擎模袭”、 “信息过虑模块”、“聚炎挖掘模块”、“关联规则挖掘模块”、“用户个性化 信息库”和“搜索引擎信息库”。 筹器章,P I R S B D M 系绞关键技零鞭究。论述了关鼗魏建方法怒炭瑷“令毪识” 的关
39、键,分析了关联规则的基本概念和阔题摇述,介绍了关联规则的评价方法、 挖掘步骤和袋联规则挖掘簿法;研究了旗于S O M 神缀网络模型的凝类挖掘和綦予 第一章绪论7 关键词向爨躲文档分类挖掘。 第五攀,类嗣关联栽粼挖摇算法髂粪。类爰关联撬鬟| j 挖蠢冀法傍囊串挖掇豹 数据源是对用户访问日忠分析处理后得到的关键词袭,目标是利用算法从用户的 关键词表中挖掘出用户潜在的个性化信息,即用户潜在的关键词组合。本章论述 了类爨关联蕊雅懿基本概念秘挖掘遥穰,著对算法瓣傣囊缝栗遴褥了分摄纛键论。 第六帮,总结展望。对论文所徽瓣工作进行了艨结,并扼要论述了进步的 研究工作。 8数据挖掘技术在个性化信息检索系统中的
40、应用研究 第一章绪论 第二章搜索引擎 系统概述 第三章P I R S B D g 统 第四章P I R S B D M 系统关键技术研究 第五章类别关联 规剐挖掘算法仿真 第六章总结展望 1 、选题的研究背景、研究的意义 2 、综述了个性化信息检索系统的国内外研究现状 3 ,对本文的主要研究工作和论文结构安捧进行了说明 1 、论述了搜索引擎的定义,历史和评价标准 2 ,研究了国内外搜索引擎的现状,分析了现有搜索 引擎的缺陷,揭示了搜索引擎的发展方向 l 、研究并提出了基于数据挖掘的个性化信息检 索系统( P I R S B D M ) 2 、研究了P I R S B D M 系统的设计思想、体
41、系结构 描述了本系统功能 l 、研究关联规则挖掘 2 、研究基于关键词向量的文档分类挖掘 3 、研究基于S O M 神经网络模型的聚类挖掘 l ,论述了类别关联规则的基本概念 2 研究了类别关联规则的挖掘过程 3 ,实现算法仿真系统,对仿真的结果进行分析和讨论 I 、对论文所做的工作进行了总结 2 展望进一步的研究方向 图1 1 论文篇章结构图 第二章搜索引擎系统概述 9 第二章搜索引擎系统概述 信息网络化是必然趋势,而网上信息可以说是无限量的。而这些复杂的信息 是分散的,如何有效和高效利用这些海量信息是一个大难题。现有的站点导航式 服务不能满足信息利用者对检索准确、快速和方便的要求。网络电子
42、媒体与报纸、 电台和电视等媒体不同,段电视节目播完了就结束了,观众要想再看只能等电 视台重播。而网络信息的传达无时无刻不在进行,用户不用担心会错过“节目”。 这就是说,网络信息同时具备共时性和历时性,它的传送和接收具有双向性的特 点。这种特性使得从网络上可获取的信息从数量上来说可以达到无限。不过,这 种好处会给用户带来问题:即如何挑选并获取自己需要的信息? 另外,当我们下 载的信息越来越多时,我们该如何管理它,并在需要的时候,方便、准确地找到 它? 信息的有效获取和高效利用问题可以说是网络应用成功与否的关键所在,这 就出现了所谓的搜索引擎系统。 2 1 搜索引擎的定义 搜索引擎,是指在I n
43、t e r n e t 中主动搜索信息并能自动索引、提供查询服务的一 类网站,这些网站通过网络搜索软件( 又称为网络搜索机器人W e bR o b o t s ) 或网 站登录等方式,将I n t e r n e t 上大量网站的页面收集到本地,经过加工处理而建成数 据库,当用户输入关键字( K e y w o r d ) 查询时,该网站会告诉用户包含该关键字信 息的所有网址,并提供通向该网站的链接。 2 2 搜索引擎的历史 从1 9 6 9 年美国国防部的计算机网络A R P A N E T 起步,I n t e r n e t 不断发展壮大, 至今已有3 0 多年历史,随着I n t e
44、r n e t 的飞速发展,网上的信息量越来越多,目前 I n t e r a c t 已经成为世界上最大的信息宝库,它已成为全球范围内传播科研、教育、 商业和社会信息的主要渠道1 1 3 1 。其中W W W 的发展速度更是惊人,据统计,自从 1 9 9 1 年诞生以来,W W W 已经发展成为拥有约1 0 亿用户,近千万个站点,信息容 量非常巨大的分布式信息空间,而且这个数字仍以每4 到6 个月翻一番的速度增 加。W W W 是建立在客户机,服务器模式上,以H T M L 语言和H 1 r P 协议为基础, 能够提供面向各种I n t e r n e t 服务的、一致用户界面的信息浏览系统
45、。W W W 所具有 的超文本和超媒体特殊结构,带来了信息出版和传播的一场革命。W W W 上存储 l o 数据挖掘技术在个性化信息检索系统中的应用研究 着大量有价值的信息,从电子期刊、电子工具书、商业信息,新闻报道、大学和 专业机构介绍、软件数据库、图书馆资源、国际组织和政府出版物、统计资料、 教学大纲、专家背景介绍,到娱乐信息等,吸引了大量的用户去使用和开发它, w W W 已展现出良好的应用和发展前景。 W W W 是一个开放性的全球分布式网络,资源分布在全球不同的地方,而且 网上的资源没有统一的管理和结构,导致了信息搜寻的困难,如何快速准确地从 浩瀚的信息资源中寻找到所需要的信息已成为
46、困扰网络用户的一大难题,这就是 所谓的“R i c hD a t aP o o rI n f o r m a t i o n ”问题。美国L y c o s 公司最近的一项调查显示, 8 0 被调查者认为互联网非常有用,但他们同时为查询所需信息花费了大量的时间 与精力而抱怨。为解决这个问题,各种网络信息检索工具应运而生在1 9 9 1 年, X W A I S ( xW i n d o w sW i d eA r e aI n f o r m a t i o nS e r v i c e ) 1 5 3 f a - - 家商业公司联合开发, 这三家公司分别是:A p p l e ,T h i
47、n k i n gM a c h i n e s 以及D o wJ o n e s ,提供了一个有着 友好界面的信息搜索系统,这就是搜索引擎的早期雏形,同一年还出现了另外一 个信息搜索系统,即我们所称之为G O P H E R 的搜索软件1 5 2 1 。而最早的真正意义上 的搜索引擎是L y c o s l S 4 1 ,创建于1 9 9 4 年的春天,L y c o s 是M i c h a e lM a u l d i n 将J o h n L e a v i t t 的s p i d e r 程序接入到其索引程序中形成的。著名的搜索站点Y a h o o 也是在 当年成立的,而N C
48、S A M o s a i e 出现在1 9 9 3 年,N e t s c a p e 出现在1 9 9 4 年。如今搜 索引擎的核心是网络导航服务,搜索引擎已成为一个网络门户。它们提供新闻, 在线图书馆,词典,以及其它网络资源,它们提供的不仅仅是网站搜索的服务, 而且涉及面越来越广,也越来越有用。比如,Y a h o o 注重的是网站分类归总服务, 而如A l t a V i s t a 、E x c i t e 等则注重提供庞大的搜索数据库。一些网络导航服务并不提 供搜索功能,它们侧重的是其它服务,但不论如何,搜索引擎为我们的网络生活 带来了极大的便利,而且是免费服务。目前,访问拥有这些
49、检索工具的检索站点, 已成为用户查找I n t e m e t 网上信息资源最常用最便捷的途径。而各个网络站点为了 使自己成为门户站点,也纷纷推出功能强大,使用方便的检索工具,以吸引用户 的访问。 2 3 搜索引擎的评价标准 从功能上讲,搜索引擎实质上是一种网络信息检索工具,不同的搜索引擎所 提供的服务在性能上差异很大,为了帮助用户有效的选择,也为了对搜索引擎的 改进提供参考,非常有必要对各种搜索引擎进行比较和评价,传统的检索工具发 展已经有百年历史,其评价标准己相当成熟,搜索引擎虽然与传统的检索工具有 着很大的区别,其相应的评价标准也不尽相同,但仍可以借鉴传统检索工具的评 价标准对网络检索工具进行评价,下面简单的对搜索引擎评价标准进行探讨1 1 6 1 。 第二章搜索引擎系统概述1 1 1 、搜索引擎收录信息的范围 这主要指收录信息范围的广度、收录信息的全面性以及收录范围划分明确性 等三个方面。搜索引擎收录信息的范围可从内容、信息源类型、搜索空间和网络 信息组织的级别( 网站级、网页级) 等考虑。 收录信息范围广、内容全是体现搜索引擎包含信息丰富性的重要尺度。同时 要注意,对广和全的要求是相对的。收录范围过窄无法满足用户的多方面需求、
链接地址:https://www.31doc.com/p-3580808.html