欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第6章现代数据挖掘技术与发展.ppt

    • 资源ID:3130107       资源大小:1.38MB        全文页数:60页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第6章现代数据挖掘技术与发展.ppt

    第6章现代数据挖掘技术与发展,本章学习目标: (1) 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构 。 (2) 通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。 (3) 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。 (4) 经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。,现代数据挖掘技术与发展,6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用 6.4数据挖掘技术的发展 练 习,6.1知识挖掘系统的体系结构,6.1.1知识发现的定义 ·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。 ·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。 ·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。 6.1.2 知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。,1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。 3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。,频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买?-啤酒和尿布? 买了PC之后接着都会买些什么? 哪种DNA对这种新药敏感 我们能够自动的分类WEB文档吗? 应用 购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等,什么是频繁模式分析?,6.2现代挖掘技术及应用,揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 序列、结构(e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算,频繁模式挖掘的重要性,购物篮分析,如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(e.g. 0001001100) 关联规则的两个兴趣度度量 支持度 置信度 通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的,关联规则:基本概念,给定: 项的集合:I=i1,i2,.,in 任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得 每个事务由事务标识符TID标识; A,B为两个项集,事务T包含A当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在事务集D中成立,并且具有支持度s和置信度c,基本概念示例,项的集合 I=A,B,C,D,E,F 每个事务T由事务标识符TID标识,它是项的集合 TID(2000)=A,B,C 任务相关数据D是数据库事务的集合,D,支持度s是指事务集D中包含 的百分比 置信度c是指D中包含A的事务同时也包含B的百分比 假设最小支持度阈值为50%,最小置信度阈值为50%,则有如下关联规则 A C (50%, 66.6%) C A (50%, 100%) 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则,规则度量:支持度和置信度,Customer buys diaper,Customer buys both,Customer buys beer,6.2现代挖掘技术及应用,6.2.1 规则型现代挖掘技术及应用 1.关联规则的基本概念,布尔关联规则、单维规则 buys(x,“computer”)=buys(x,“finacial_management_software”) 量化关联规则、多维关联 age(“3040”)income(“4200050000”)=buys(x,“high_resolution_TV”) 多层关联规则 单层关联规则 age(x,“3040”)=buys(x,“IBM computer”) (6.3) age(x,“3040”)=buys(x,“computer”) (6.4) 关联规则(6.2)可以用下面的SQL查询语句完成。 Select Cust.name, P.item_name from Purchases,P group by Cust.ID having (Cust.age=30.and.Cust.age=42000 and Cust.income = 50000) and (p.item_name=high_resolution_TV),2.关联规则的应用目标 置信度或正确率可以定义为: (6.5) 覆盖率可以定义为 “兴趣度”为目标的关联规则,最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。,最小支持度 50% 最小置信度 50%,对规则A C,其支持度 =50% 置信度,基本概念 k项集:包含k个项的集合 牛奶,面包,黄油是个3项集 项集的频率是指包含项集的事务数,简称为项集的频率、支持度计数或计数 项集的支持度有时称为相对支持度,而出现的频率称作绝对支持度。如果项集I的频率大于(最小支持度阈值×D中的事务总数),则称该项集I为频繁项集。频繁k项集的集合通常记作Lk。,频繁项集,3.关联规则的算法 Apriori算法基本思想 1找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。 2使用第1步找到的频集产生所期望的规则。 Apriori算法的第1步采用了递归方法,算法表示为 L1=large 1-itemsets;/产生频繁1项集L1 for (k=2;Lk-1;k+) do /循环产生频繁2项集L2直到某个r使Lr为空 begin Ck=apriori-gen(Lk-1);/产生k-项集的候选集 for all transactions tD do begin Ct=subset(Ck,t);/事务t中包含的候选集 for all candidates cCt do c.count+; end Lk=cCk|c.countminsup end Answer=UkLk,第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,Ik,k2,IjI,那么只有包含集合 I1,I2,I3,Ik中的项的规则最多有k条。这种规则形如I1,I2,I3,Ii-1,Ii+1,IkIi,。这些规则置信度必须大于用户给定的最小置信度。,Apriori频繁项集搜索算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。 Lk-1中的两个元素L1和L2可以执行连接操作 的条件是 Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。 为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。,Apriori算法步骤,由L2产生C3 L3,Apriori算法示例,Database TDB,1st scan,C1,L1,L2,C2,C2,2nd scan,C3,L3,3rd scan,4.关联规则的应用,6.2.2 神经网络型现代挖掘技术,1.神经网络及其学习方法 神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。 学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。,6.2.2 神经网络型现代挖掘技术,2.基于神经网络的数据挖掘 (1)基于自组织神经网络的数据挖掘技术 一种无教师学习过程 、可以提取一组数据中的重要特征或某种内在知识 (2)模糊神经网络类型数据挖掘技术 模糊BP网络、模糊Kohonen聚类网络、模糊推理网络、模糊ART模型等 模糊BP网络中,样本的希望输出值改为样本相对各类的希望隶属度 输出表达方面实现了模糊化,而且将样本的隶属度引入了权系数的修正规则中,使权系数的修正规则也实现了模糊化。,6.2.2 神经网络型现代挖掘技术,3.后向传播模型(BP,Back Propagation)及其算法 具体过程如下: 选定p个样本; 权值初始化(随机生成); 依次输入样本; 依次计算各层的输出; 求各层的反传误差; 按权值调整公式修正各权值和阀值; 按新权值计算各层的输出,直到误差小于事先设定阀值; 变换函数可以采用这样几种: 阶跃函数、S型函数、比例函数、符号函数、饱和函数 、双曲函数,6.2.2 神经网络型现代挖掘技术,4.神经网络的应用,6.2.3 遗传算法型现代挖掘技术,1.遗传算法的基本原理 达尔文的“适者生存”理论、继承的信息由基因携带 、多个基因组成了染色体 、基因座、等位基因 、基因型和表现型 染色体对应的是一系列符号序列,通常用0、1的位串表示 进行生物的遗传进化。在这一过程中包括三种演化操作:在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。 两种数据转换:从表现型到基因型的转换,另一种是从基因型到表现型的转换 遗传算法实质上是一种繁衍、检测和评价的迭代算法 最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强,6.2.3 遗传算法型现代挖掘技术,2.遗传算法的处理过程 (1)编码并生成祖先群体 要用遗传算法解决问题,首先要定义有待解决的问题: F=f(a,b,c),FR ,(a,b,c) F=f(a,b,c)是属于实数域R的一个实数,也是每一组解(ai,bi,ci)的适应度的度量,算法的目标是找一个(ao ,bo ,co),使F=f(ao ,bo ,co)取最大值。 (2)计算当前基因群体中所有个体的环境适合度 (3)用适应函数评价每一个体对环境的适应度 (4)选择适应度好的生物个体进行复制 (5)选择适应度好的生物个体进行复制交叉配对繁殖 (6)新生代的变异操作,6.2.3 遗传算法型现代挖掘技术,6.2.3 遗传算法型现代挖掘技术,3.遗传算法的应用 用四个染色体来定义客户类型: 基因1:客户的年龄下限 基因2:客户的年龄上限 基因3:客户的收入水平 基因4:客户的人口状况(人口状况可以分成:少(1至2人)、一般(3至4人)和多(5人以上)三种状况),所有的生物个体按顺序排放在一张二维表格上,使每个生物体的上、下、左、右都与其它生物体相邻接。 (1)竞争复制 (2)杂交繁殖 (3)异变处理,6.2.4 粗糙集型现代挖掘技术,1粗糙集技术 2.粗糙集的应用 表中的970230、980304、990211客户的“赞扬竞争对手的产品”属性是相似的;980304、990327客户的“挑选产品时间很长”和“客户流失”属性是相似的;970230、990211客户的“赞扬竞争对手的产品”、“ 挑选产品时间很长”和“距最后一次销售时间”属性是相似的;这样,围绕“赞扬竞争对手的产品”属性就可以产生两个初等集合:970230、980304、990211和970102、980625、990327;而“赞扬竞争对手的产品”和“挑选产品时间很长”属性可以生成三个初等集合:970102、980625、990327、970230、990211和980304。,6.2.4 粗糙集型现代挖掘技术,因为客户970230已经流失,而客户990211没有流失,由于属性“赞扬竞争对手的产品”、“ 挑选产品时间很长”和“距最后一次销售时间”是相似的。因此,客户流失不能以属性“赞扬竞争对手的产品”、“ 挑选产品时间很长”和“距最后一次销售时间”作为特征进行描述。 而970230、990211就是边界实例,即它们不能根据有效知识进行适当的分类。余下的客户970102、980304和990327所显示的特征,可以将他们确定为已经流失的客户。当然,也不能排除970230和990211已经流失,而980625毫无疑问没有流失。 所以客户集合中“流失”的下近似集合是970102、980304、990327,上近似集合是970102、970230、980304、990211、990327。 同样,980625没有流失,但是不能排除970230和990211流失。因此,客户“没有流失”概念的下近似是980625,上近似是970230、980625、990211。,6.2.5 决策树型现代挖掘技术,1决策树技术 ID3,该算法建立在推理系统和概念学习系统的基础之上,基本步骤是。 (1)创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。 (2)否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。 (3)对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。 (4)使用同样的过程自顶向下的递归,直到满足下面的三个条件中的一个时,就停止递归。 (a)给定节点的所有样本都属于同一类。 (b)没有剩余的属性可以用来进一步划分。 (c)继续划分得到的改进不明显。,6.2.5 决策树型现代挖掘技术,1决策树技术 信息增益被定义为原始分割的熵与划分以后各分割的熵累加得到的总熵之间的差。 信息增益是指划分前后进行正确预测所需的信息量之差。 选择具有最高信息增益的属性作为当前节点的测试属性。 一个给定的样本分类所需要的期望信息为 由A划分成子集的熵或期望信息是,6.2.5 决策树型现代挖掘技术,1决策树技术 为第j个子集的权,等于子集(A值为aj)中的样本数除以S中的样本数。对于给定的子集Sj, I(s1j,s2j,smj)可用下式计算 是Sj中的样本属于类Ci的概率 由A划分的信息增益是Gain(A)=I(s1,s2,sm)-E(A),6.2.5 决策树型现代挖掘技术,2.决策树的应用,6.2.5 决策树型现代挖掘技术,6.2.5 决策树型现代挖掘技术,“年龄”在各个属性中具有最大的信息增益,所以选择“年龄”属性作为第一个测试属性,创建一个节点,用“年龄”标记。 计算剩余各个属性的相应的信息增益,选择信息增益最大的属性作为测试属性,这时信息增益最大的是“学生”属性,创建一个节点,用“学生”标记 。,6.3知识发现工具与应用,6.3.1 知识挖掘工具的系统结构 1.无耦合(no coupling) DM系统不利用DB或DW系统的任何功能 2.松散耦合(loose coupling) DM系统将使用DB/DW的某些工具 3.半紧密耦合(semitight coupling) DM系统连接到一个DB/DW系统,一些基本数据挖掘原语可以在DB/DW系统中实现。 4.紧密耦合(tight coupling) DM系统被平滑地集成到DB/DW系统中,6.3知识发现工具与应用,6.3.2 知识挖掘工具运用中的问题 1.数据挖掘技术应用中的共性问题 (1)数据质量 (2)数据可视化 (3)极大数据库(vLDB)的问题 (4)性能和成本 (5)商业分折员的技能 (6)处理噪声和不完全数据 (7)模式评估兴趣度问题,6.3知识发现工具与应用,6.3.2 知识挖掘工具运用中的问题 2.数据挖掘技术应用中的个性问题 (1)规则归纳应用中的问题 主要用于显式描述数据抽取的规则 、找到所有的规则,工作量是巨大的 (2)神经网络应用中的问题 受训练过度的影响 、神经网络的训练速度问题 (3)遗传算法应用中的问题,6.3知识发现工具与应用,6.3.3 知识挖掘的价值 1.了解商业活动 2.发现商业异常 3.预测模型 6.3.4 现代数据挖掘工具简介 1.DBMiner的体系结构 2.DBMiner的数据挖掘类型,6.4数据挖掘技术的发展,6.4.1 文本挖掘 1.文本分析和语义网络 文本分析 为一个大型文本集合提供内容概况 例如,可以发现一个客户反馈集合中文档的显著簇,这样可能会发现公司的产品或服务在哪里需要改进。 指出对象间的隐藏结构 在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有关联的文档就能被超链接连接起来。 提高发现相似或相关信息搜索过程的效率和有效性 例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有到现在为止在别的文章中没有提到过的新趋势或技术的线索。 侦察存档中的重复文档 文本分析可以用于大量文本需要分析的地方。虽然自动处理不能达到人类阅读分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等。,6.4数据挖掘技术的发展,语义网络 一个有效文本分析的第一步是创建该文本的一个语义网络。一个语义网络是一系列来自分析的文本的最重要概念(词与词的组合)以及文本中这些概念间的语义联系。一个语义网络为分析的文本提供了一个简明和非常准确的总结。与人工神经网络一样,语义网络的每个元素概念都被它的权重和一组与此网络其他元素的联系所标识一个上下文结点。一旦为调查研究的文本构造的一组准确的语义网络建立起来,所有文本分析任务就可以执行。 在现有的大部分算法中,一个语义网络是在一些已定义的规则和概念的基础上建立起来的。不过,也存在一些比较强大的算法,这些算法不需要任何关于主题的预先背景知识,可以仅仅在一个调查研究文本的基础上完全自动建立起一个语义网络。,6.4数据挖掘技术的发展,2.文本挖掘 文本总结 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。用户不需要浏览全文就可以了解文档或文档集合的总体内容。 基于关键字的关联分析 首先收集经常一起出现的关键字或词汇,然后找出其关联或相互关系。在这类分析中,每一个文档被视为一个事务,文档中的关键字组可视为事务中的一组事务项。这样,这种基于关键字的关联分析就变成事务数据库中事务项的关联挖掘问题。 一组经常连续出现或紧密相关的关键字可形成一个词或词组。关联分析有助于找出复合关联,即领域相关的词或词组,如中国,长江,三峡。还有助于找出非复合关联,即领域不相关的词或词组,如人民币,交易,总额,证券,佣金,参股。基于这些词或词组关联的挖掘被称为“词级关联挖掘”。利用这种词和词组的识别,词级挖掘可以用于找出词或关键字之间的关联。,6.4数据挖掘技术的发展,2.文本挖掘 文档分类分析 在已有的数据基础上学会一个分类函数或构造出一个分类模型。对文档进行分类。文档的分类分析,一般是先把一组预先分类过的文档作为训练集,然后对训练集加以分析以便得出分类模式。这种分类模式一般要经过一定的测试过程,不断细化。最后用分类模式对其他文档加以分类。 常用的一种对文档分类的有效方法是基于关联的分类。这种分类方法是基于一组相关联的、经常出现的文本模式对文档加以分类。其处理过程为:首先,通过简单的信息检索技术或关联分析技术提出关键字或词汇。然后,使用已有的词类,或基于专家知识,或用关键字分类系统,生成关键字和词的概念层次。最后,使用词级关联挖掘方法发现一组关联词。这样,每一类文档相关有一组关联规则表示。这些分类规则可以基于其出现频率和识别能力,加以排序,并用于对新的文档进行分类。,6.4数据挖掘技术的发展,文档聚类分析 文档聚类是把文档集分成不同组的自动过程。没有预先定义好主题类别,它的目标是将文档集合分成若干个组,要求同一组内文档内容的相似度尽可能大,而不同组间的相似度尽可能小。当文档的内容作为聚类的基础时,不同组是对应于集合中讨论的不同主题或论题。因此,聚类是找出集合所含内容的一条途径。为帮助识别出一组主题,聚类工具可以识别出在此组文档中频繁出现的术语或词的列表。聚类也能根据文档的属性集实施,例如它们的长度、日期等进行聚类。,6.4数据挖掘技术的发展,文本挖掘的应用 利用文本挖掘构造的电子邮件路由,可以对电子邮件进行文本挖掘以后,确定由哪一个部门、哪一个人来处理这些电子邮件,并可以根据电子邮件的内容进行相关统计。 文本挖掘可以帮助组织对成千上万的文档实现有效的管理,可以使组织很快地了解到所需要查找的文档所在位置,以及其包含的主要内容。 可以利用文本挖掘建立一个客户自动问答系统,对客户所邮寄的信件、电子邮件进行文本挖掘以后,根据其反映的主要问题,能够确定客户的需求置信度后,就可以自动给客户发送合适的回信。 企业并且还可以利用联机文本挖掘系统对因特网上所出现的特定词、概念、主题进行挖掘统计,对市场进行客观的统计分析。 企业甚至可以利用一些具有文本挖掘功能的自动智能网络爬虫来收集与企业有关的市场、竞争对手和市场环境的信息,给出总结性的分析报告。,6.4数据挖掘技术的发展,6.4.2 Web挖掘技术 Web的特点 Web的庞大性、Web的动态性、Web的异构性、非结构化的数据结构、用户群体多种多样 2. Web内容挖掘 基于文本信息的挖掘 和通常的平面文本挖掘比较类似。Web文档多为HTML、XML等语言,因此可以利用Web文档中的标记,如、等额外信息,利用这些信息来提高Web文本挖掘的性能。 在对Web文档进行分类分析中,可以基于一组预先分类好的文档,从预定义好分类目录中为每一文档赋予一个类标签。例如,Yahoo!的文档和其相关文档可以作为训练集,用于导出Web文档的分类模式,这一模式可以用于对新的Web文档加以分类。由于超链接包含了有关页面内容的高质量信息,因此,可以利用这些信息对Web文档进行分类。这种分类比基于关键字的分类方法要更准确、更完美。,6.4数据挖掘技术的发展,基于多媒体信息的挖掘 基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘。 3.Web结构挖掘 从WWW的组织结构和链接关系中推导知识 有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。 从一个页面指向另一个页面的超链接。超链接包含了大量人类潜在的语义,它有助于自动分析出权威性语义。当一个Web页面的作者建立起指向另一页面的指针时,这就可以看作是作者对另一页面的注解,也就是对另一页面的认可。把一个页面的来自与不同作者的注解收集起来,就可以用来反映页面的重要性。 Hub页面是指一个或多个Web页面,它提供了指向权威页面的链接集合。对于一个Hub页面来说,它本身可能并不突出,但是,它却提供了指向某个话题的权威页面的链接。好的Hub是指向许多好的权威页面;好的权威页面是指有好的Hub页面指向的页面。用Hub页面和权威页面之间的这种相互作用来用于权威页面的挖掘和高质量Web结构和资源的自动发现。,6.4数据挖掘技术的发展,4. Web使用记录的挖掘 通过挖掘Web日志文件和相关数据,发现用户访问Web页面的模式。 Internet的用户一旦连接到一个在线的服务器上,就在服务器上的日志文件留下了所请求的URL,发出请求的IP地址和时间戳。这些日志纪录提供了Web数据挖掘源,可提取有关用户的知识:用户的访问行为、频度、内容,得到关于用户的行为和方式模式。改进站点的结构,或为用户提供个性化服务。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用纪录追踪。一般的访问模式追踪通过分析使用纪录来了解用户的访问模式和倾向,从而改进站点的组织结构。而个性化的使用纪录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供个性化的页面,开展有针对性的服务以满足用户的需求。,6.4数据挖掘技术的发展,数据预处理阶段 包括数据清洗和事务识别两个部分 模式识别阶段 采用统计法、机器学习等技术,从Web使用记录中挖掘知识 模式分析阶段 模式分析,辅助分析人员理解 5.Web数据挖掘的应用 电子商务、网站设计和搜索引擎服务等多方面。 电子商务的应用主要有客户分类和客户聚类、寻找潜在的客户、客户的驻留。网站设计的应用是有效地组织网站信息,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。 搜索引擎服务:实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式(query)历史记录分析,提高用户的检索效果(查全率、查准率) 。,6.4数据挖掘技术的发展,6.4.3 可视化数据挖掘技术 1.数据的可视化 2.可视化数据挖掘技术 数据可视化 数据挖掘结果可视化 数据挖掘过程可视化 交互式可视化数据挖掘,图12.4 数据的可视化,图12.5 数据挖掘结果可视化,图12.6 数据挖掘结果的3D图形,6.4数据挖掘技术的发展,6.4.4 空间数据挖掘 1.地理信息系统 地理信息系统概念 地理信息系统的特点 2.数据挖掘技术和地理信息系统相结合 3.地理信息系统的数据挖掘特点 图形化数据挖掘 图形化统计查询 图形化报表输出 专业的地理分析功能 4.空间数据挖掘 5.空间数据挖掘用途,6.4数据挖掘技术的发展,6.4.5 分布式数据挖掘 1.分布式数据挖掘 2.适合水平式数据划分的分布式挖掘方法,6.4数据挖掘技术的发展,6.4.5 分布式数据挖掘 3.适合垂直式数据划分的分布式数据挖掘方法,

    注意事项

    本文(第6章现代数据挖掘技术与发展.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开