《web数据挖掘技术分析与研究要点.pdf》由会员分享,可在线阅读,更多相关《web数据挖掘技术分析与研究要点.pdf(14页珍藏版)》请在三一文库上搜索。
1、汉口学院学士学位 毕业论文 论文题目:Web数据挖掘技术分析与研究 学生姓名: 学号: 专业名称: 指导教师姓名: 指导教师职称: 二 0 年月日 汉口学院学士学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下独立进行研究工作 所取得的研究成果。 除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后 果由本人承担。 学位论文作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保障、使用学位论文的规定, 同意学校 保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文 被
2、查阅和借阅。本人授权省级优秀学士学位论文评选机构将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段 保存和汇编本学位论文。 本学位论文属于 1、保密 ,在_年解密后适用本授权书。 2、不保密。 (请在以上相应方框内打“” ) 学位论文作者签名:日期:年月日 导师签名:日期:年月日 目录 内容摘要 1 关 键 词1 Abstract1 Key words 1 1Web 数据挖掘的概念 ,2 2Web 数据挖掘的工作过程和分类,2 2.1Web 数据的特点 ,2 2.2Web 数据挖掘的工作过程 ,3 2.3Web 数据挖掘的分类 ,4 3常用的Web数据挖
3、掘技术研究 ,5 3.1 路径分析技术 ,6 3.2分类聚类技术 ,8 3.3关联规则挖掘技术 ,9 4结束语 ,10 参考文献 ,11 致 谢,12 1 Web数据挖掘技术分析与研究 内容摘要 :随着互联网的高速发展, web已成为了人们信息交流的一个重 要工具,Web数据挖掘技术作为处理数据的专项技术,其优越性能在许多领域 都有所体现。首先,本文介绍了web数据挖掘的概念、工作过程和分类,接着 详细阐述了路径分析技术、 分类聚类技术和关联规则挖掘技术,对它们的研究 现状进行了分析, 并指出了它们所存在的问题, 提出了相应的改进意见。 最后, 对 web数据挖掘技术进行了展望。 关 键 词:
4、 Web页面数据挖掘路径分析分类聚类关 联规则 Abstract : With the rapid development of the Internet, the web has become an important information exchange tool for many people. As a special processing data technology, the web data mining is used in many fields because of its many advantages. In the paper, firstly, the con
5、cept of web data mining, the working process and classification are introduced. Secondly, the path analysis technology, classification clustering and association rule mining techniques are described in detail, analyzing their current situation and existing problems, and proposed some improvement ide
6、as. Finally, the futures of the web data mining technology are illustrated. Key words :Web page Data mining Path analysis Classification Clustering Association rules 2 1.Web 数据挖掘的概念 随着Internet的发展,Web中容纳了新闻、 广告、消费、金融、教育、政府、 电子商务等各种类型的原始数据,因此,它已经成为一个巨大的信息库。如何 能将这些信息从网页中抽取出来,为客户提供个性化、 高效率的服务, 为企业 创造更多的
7、利润是网站经营者的值得高度关注的一个重要话题。 在1996年,Web数据挖掘的概念首次被 Oren Etzioni提出。经过人们不断的 研究发展,目前出现的“ Web知识发现”、 “因特网的数据挖掘”、 “Web信息挖 掘” 、 “网络信息挖掘”等提法都可以认为是它的同义词。Web数据挖掘是从大 量潜在的 Web文档和相关数据中发现、 提取人们感兴趣的、 有用的规律或信息, 是数据挖掘技术在 Web环境下的应用。它所涉及的学科知识包括有网络技术、 信息统计学、计算机语言学、数据挖掘等,是一项具有很强综合性的技术。目 前,Web数据挖掘技术已广泛应用到电子商务、网站设计和搜索引擎服务等方 面,正
8、成为人们研究的一个热点。 2Web 数据挖掘的工作过程和分类 2.1 Web数据的特点 静态网页、 Web数据库、 Web结构、用户使用记录等信息是Web数据挖掘 所处理的对象。而这些数据有其自身的特点,主要表现在以下几点: (1)异构数据库环境。在万维网上,每一个站点都可以看成是一个数据源, 它们的信息内容和组织结构都会彼此不同,这些异构的数据源可以构成一个巨 大的异构数据库。 (2)分布式数据源。 在世界各地的 Web 服务器上都有 Web,构成了分布式 3 的数据源。 (3)动态性强。 Web 是一个动态性极强的信息源。因为人们会经常对Web 查询,网页提供者也会不定期地更新, 所以各站
9、点的链接信息和访问记录的更 新非常频繁,来自网页的信息更新速度也很快, (4)半结构化。 Web 上的数据是一种非完全结构化的数据,没有特定的模 型描述。 (5)多样复杂性。 Web 上的信息资源比较复杂,因为它包含有文本数据、 超文本数据、图表图像、音频视频等多种数据。 2.2 Web数据挖掘的工作过程 典型 Web挖掘的处理流程如图1 所示: 图 1 Web 数据挖掘的工作流程 (1)资源发现: 是指从 Web获取并返回文本资源的过程。通过 Web交易形 成的数据、 HTML 文档、新闻组、 BBS、电子邮件、网站日志等都属于文本资 源。 (2)信息选择和预处理:在信息处理前,需要剔除We
10、b 资源中那些无用的 信息,并进行必要的整理。比如,去除多余格式标记和广告链接、自动识别段 落,完成数据整理组成规整的逻辑形式或者形成关系表的任务。而预处理的任 务是完成数据清洗、会话识别、用户识别和事务识别等工作。 (3)模式识别:借助统计分析、路径分析、关联规则、序列模式以及分类 聚类等方法和技术,从Web使用记录中挖掘知识。 (4)模式分析:运用成熟的技术和工具进行模式的分析,从而辅助分析人 员的理解,通过解释和可视化手段将发现的规则转换为知识。 资源发现 信 息 选 择 和预处理 模式识别模式分析 4 2.3 Web数据挖掘的分类 根据挖掘对象的不同,如图2 所示,可将 Web 数据挖
11、掘分为: Web 内容 挖掘、 Web使用挖掘和 Web结构挖掘三类。 图 2 Web 数据挖掘的分类 (1)Web 内容挖掘: Web 内容挖掘可分为文本挖掘和多媒体挖掘两大类: Web 文本挖掘的数据对象既可以是机构化的,也可以是非机构化的、半机构 化的, Web 文本挖掘的结果既可以是对某个文本内容的概括,也可以是对整 个文本集合的分类结果或聚类结果,还可以利用Web 文档进行趋势预测等; 而多媒体信息挖掘是通过对存在于网页中的音频、视频数据和图像进行预处理 之后,再采用存储和搜索技术与其他方法对其中潜在的、有意义的信息和模式 进行挖掘的过程。 它主要用于图形和图像处理和语音识别等领域。
12、通过对 Web 文档中非结构化数据集成、 概化、分类,能够得到某类信息所蕴含的知识模式, 能够自动查找和检索那些对用户感兴趣的知识。 (2)Web 结构挖掘: Web结构挖掘可分为 Web文档结构挖掘和超链结构挖 掘。Web 结构包括了很多页面之间的超链接结构和网页内部用HTML ,XML 表示的树形结构, 以及文档 URL 中的目录路径结构等。 对 Web文档的结构进 行挖掘,挖掘Web 潜在的链接结构模式,可以用来指导对页面进行分类和聚 类,找到权威页面、中心页面,从而提高检索的性能。Web 页面之间的链接 Web挖掘 结构挖掘内容挖掘使用挖掘 超链结构挖掘文档结构挖掘多媒体挖掘文本挖掘
13、个性化页面推荐商业智能站点修改系统改进 5 结构中包含了许多有用的信息。而超链结构挖掘主要依据SCI 的科学引文分 析理论。该理论认为如果两篇文献具有同被引和耦合等关系,则这两篇文献具 有相互关系或相互联系, 我们利用这些关系, 可以发现科学活动中许多隐蔽的 和深层次的相关关系。 (3)Web 使用挖掘:用户访问 Web时,用户的请求信息以及访问Web页面 的方式将在服务器中留下痕迹。 这些访问记录包含了用户访问以及与系统交互 的信息。 Web 使用挖掘就是对用户访问Web时服务器方留下的访问记录进行 挖掘,从中可以得出用户的访问模式和访问兴趣。分析这些数据有助于理解用 户的行为、改进站点结构
14、、提供个性化服务等。 3常用的 Web 数据挖掘技术研究 常用的 Web 数据挖掘中技术有路径分析技术、分类聚类技术和关联规则 技术等。 3.1 路径分析技术 1921 年,遗传学者 Sewll Wright 提出了路径分析法,主要是用来解释基 因之于人类的因果关系。 路径分析主要用于分析变量间的因果关系,衡量两变 量之间的相关程度。 这与我们通常说的相关系数不同,因为相关系数不能说明 变量之间的因果关系。该方法假设在一系列变量中,如果变量 1 X 在时间上先 于 2 X ,则我们可假设 1 X 导致 2 X ,图示为 1 X 2 X ,同时允许有一误差项, 所以路径图可表示成: X2 X1
15、6 以线性模式可表示成: 2011 =+XX(1) 式中 X1为外源变数, 2 X 为内源变数,且 X1与不相关。 如图 3 所示,在处理一群变量时, 要确定它们彼此之间因果关系,可以对 每一个变量作路径分析,找出其路径系数,得到相应的路径分析图。 图 3 路径分析图 事实上,一般我们可以根据研究的对象之不同,画出不同的路径图, 求出 它的路径系数。路径分析法是属于“相关关系的研究”,只有在证据十分明确 的情况下,才能得出因果关系的结论。 说一个变量决定另一个某变量时,往往 是依据数据的猜测或判断而得出的。 路径分析法的一个贡献是鼓励研究者在进 行研究之前,作理智的预测而非毫无方向漫无目的摸索
16、,研究者也必须在不断 研究的过程中,不断修正其因果模式直到能正确说明该现象为止。 在 Web使用模式挖掘中使用路径分析技术,常用的一个工具是网站结构 图。用一个有向图来表示Web,记为 G=(V,E),其中 V 是页面的集合, E 是 页面之间的超连接集合, 图的顶点代表页面, 图中的有向边代表页面之间的超 连接。对 v 的引用用顶点 v 的入边来表示, v 引用了其他的页面则用出边来表 示,这样就形成网站结构图。借助它,可以判定哪条路径是一个Web站点中 最频繁访问的,还有一些其他有关路径的信息通过路径分析也能得出。比如: 7 80%的用户在访问 /source/mylink2 时,是从 /
17、source开始,经过 /source /new 、 /source/mylink、/source/mylink1 最后才到 /source/mylink2 的。这条规则说明在 /source/mylink1 页面上存有用的信息,但因为客户对站点是迂回绕行访问的, 所以这个有用信息并不明显。 假如/source/mylink2 这个页面对网站来说比较重 要,可以改进页面及网站结构的设计,从使客户更轻易地访问到它。 在做网站路径分析的实际操作中可能会遇到很多的问题。一是网站访问者 身份的多样性。访问你网站的人可能是潜在客户, 可能是合作伙伴、 竞争对手, 还有可能是公司的内部员工。 这样,我们在
18、网站路径统计的数据中就包含了多 种身份的访问者。 二是访问者访问目的多样性。 试想,你每次访问淘宝网都是 为了买东西吗 ?尽管我们区分了访问者身份的多样性,但是客户每次访问网站 的目的也不尽相同。 他们访问网站的目的有可能是浏览商品,购买商品,获取 帮助,退换货,查看物流等是。 这也使得网站路径统计数据中包含了不同访问 目的的访问者。 三是访问者访问路径多样性。 即使是同一身份同一目的的访问 者,完成任务的方式也是不一样的。拿查找某个特定商品信息来说吧,有的访 问者是通过站内搜索得到的,有的是在网站的分类导航中逐级筛选查找得到 的,而有的则是直接通过外部搜索引擎直接访问得到的。这就导致了在网站
19、路 径统计数据中包含了复杂的入口和访问路径。基于这些原因, 造成了网站路径 统计数据中的混乱和不准确。 同时你也不能将不同身份和访问目的的人混在一 起进行路径分析。更不能把他们的汇总数据用来计算网站的转化率和投资回报 率。 这种计算方法是有问题的, 完全不符合逻辑。 要避免前面提到的这些问题, 我们在进行网站路径分析前要进行细分。我们可以对访问者进行细分, 也可以 对路径中任务进行细分。 3.2 分类聚类技术 数据分类技术就是从数据中挖掘出某些共同特征来实现对数据项的分类。 8 在 Web数据挖掘中,利用分类技术可以根据捕获的Web访问用户的个人信息 或共同的访问模式得出访问某一服务器文件的用
20、户特征。目前,Web 所面对 的用户从总体上讲具有不可知性和不确定性,从理论上讲,任何能上网的 Web 用户都可能成为任何网站的用户。由于人数众多, 地域分散等因素的影响, 决 定了 Web 用户的不可知性,从而决定了用户使用网站目的的不确定性;从另 一方面讲,虽然用户众多, 但用户还是可以按年龄、 知识水平等因素区分成不 同的类型,此外,网站在设计之初也必然规划其受众,所以,不存在满足所有 人的所有期望的网站服务, 从而将不同的用户分成不同的类型,只有这样, 挖 掘出的结果才可能做到尽可能地满足具体用户的期望。有了准确的用户类型划 分,就可以预测用户的行为,从而达到尽可能地使用户获取满意信息
21、的目标。 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为 聚类。聚类分析技术能对Web 上的文档进行分类,可以发现信息。常用的聚 类算法可以分为:层次方法、划分方法、基于网格的方法、基于密度的方法和 基于模型的方法。 这些算法虽然已经被广泛应用到数据挖掘领域中,但都存在 着这样或者那样的不足。 这些不足总起来说表现在: 一是对初始参数敏感。 在 算法的初始输入中, 算法需要准备聚类的数据和一些相关的参数,而这些参数 选择对聚类结果有直接影响。对普通用户来说,参数的选择存在一定的困难。 二是难以找到最优聚类。 一个包含 n个数据的数据集, 如果把它聚成 k 类,有 很多种可能,但
22、目前还没有一种能从这种聚类中发现最优聚类的算法。现在常 常通过一种诱导算法, 实现一个在完全空间的不完全搜索,而这些诱导算法往 往会陷入局部最优解。 三是聚类有效性问题。 聚类是一种无导师学习算法, 对 数据集中数据的分布情况我们事先并不知道,这样就会出现聚类结果的有效性 问题。四是对噪音数据的敏感性。 由于噪音数据的存在, 这些算法的使用范围 受到了严重的影响。 9 3.3 关联规则挖掘技术 实际上,用户在浏览访问一些页面之间可能并不存在直接的引用关系。在 Web 挖掘中利用关联规则,可以挖掘出用户在一个访问会话期间从服务器上 访问的页面或文件之间的联系。 对购物篮分析就是一个非常典型的关联
23、规则应 用,对顾客放入 “购物篮”中不同商品之间的联系进行分析,可以得出顾客的 购买习惯。在Web 教学中,利用关联规则可以发现学习者对内容页面之间的 访问关系,调整页面之间的结构关系, 预测学习者可能访问的内容, 使其能快 捷地访问到感兴趣的内容。 如果对学习课程应用关联分析, 则可以寻找各门课 程之间的内在联系,根据a 课程与 b 课程在一起浏览的情况,推导出a 和 b 在一起是起着积极作用还是负面影响,进而可以选定课程之间的关联, 及时制 定策略建立或删除a 和 b 课程之间的关联。 4结束语 Web数据挖掘技术是一个新兴的研究领域,在实际应用当中仍存在许多 尚未解决的问题, 值得我们更
24、加深入地去研究。 我们相信在商业利益的强大驱 动下,随着人们对它研究的日益广泛和深入,新的数据挖掘技术和方法将会层 出不穷,可以预见,未来的数据挖掘技术将越来越智能化,数据挖掘方法将越 来越科学。 参考文献 1 朱明编著 . 数据挖掘 . 合肥:中国科技大学出版社,2008:2252. 2 (美)罗塞尔著,师蓉译 . 社交网站的数据挖掘与分析. 北京:机械工业出 版社, 2012:184216. 10 3 袁 春 花 .Web 数据 挖 掘 技 术 在数 字 图 书 馆 中的 应 用研 究 . 软件 导 刊 究,2013,12(1):131133. 4 穆瑞辉 . 搜索引擎中 Web数据挖掘技
25、术的应用价值研究. 数字技术与应用, 2013,15(1):97 97. 5 陆玉昌数据挖掘与知识发现成都:西南交通大学出版社,2005:155 186. 11 致 谢 通过前一阶段的努力,我的毕业论文终于完成了。在论文的撰写过程中, 得到了 * 老师的悉心指导。 * 老师从论文的最初定题、资料收集、论文写作、 论文修改,到论文定稿,曾多次询问研究进程,帮助我开拓研究思路,并为我 指点迷津和热忱鼓励。为了指导我的毕业论文, * 老师放弃了自己的休息时间, 这种无私奉献的敬业精神令人钦佩,在此我向他表示我诚挚的谢意。同时,感 谢所有任课老师和所有同学在这四年来给自己的指导和帮助,是他们教会了我 专业知识,教会了我如何学习,教会了我如何做人。正是由于他们,我才能在 各方面取得显著的进步, 在此向他们表示我由衷的谢意, 并祝所有的老师培养 出越来越多的优秀人才,桃李满天下! 同时,在本论文的写作和编排过程中, 还得到了 * 、 * 等同学的热情帮助。 在此,我一并向曾给予过我帮助的老师和同学表示真诚地谢意! 最后,向百忙之中抽空审阅我的论文的专家老师们表示衷心感谢。由于本 人理论水平比较有限, 论文中的有些观点的归纳和阐述难免有疏漏和不足的地 方,欢迎专家老师们批评指正。
链接地址:https://www.31doc.com/p-5198461.html