内容提纲.ppt
《内容提纲.ppt》由会员分享,可在线阅读,更多相关《内容提纲.ppt(54页珍藏版)》请在三一文库上搜索。
1、1,内容提纲,一 知识挖掘的基本概念 二 知识发现过程与应用结构 三 关联规则挖掘理论 四 分类方法 五 聚类方法 时间序列和序列模式挖掘 七 Web挖掘技术,2,什么是知识挖掘?,随着数据采集技术的不断发展,人类每天获取的数据剧增,但数据中隐藏的丰富的知识远远没有得到充分的挖掘与利用,形成了“数据爆炸,知识饥饿“的状况。知识挖掘就是在这种背景下应运而生的。知识挖掘就是一个从数据集中识别有效的、潜在有用、最终可理解的模式的过程。模式是一个用语言来表示的表达式,它可用来描述数据集的某个子集。我们所说的知识,是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价
2、,以及反复的修改求精。该过程要求有一定程度的智能性、自动性。,3,一 知识挖掘的原理与方法,数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的知识表示模式与方法 不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析,4,数据挖掘技术的商业需求分析,随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等等。产生“数据丰富而信息贫乏(Data Rich & Information Poor)”现象。 在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;
3、学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。 随着信息技术的高速发展,人们希望能够提供更高层次的数据处理功能。新的需求推动新的技术的诞生。 数据(Data)、信息(Information)和知识(Knowledge)是广义数据表现的不同形式。,5,数据、信息和知识,data,information,knowledge,6,数据挖掘产生的技术背景,数据挖掘是相关学科充分发展的基础上被提出和发展的。 主要的相关技术: 数据库等信息技术的发展 统计学深入应用 人工智能技术的研究和应用,7,数据挖掘是一个多学科交叉技术,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,8
4、,数据库系统的发展,60年代:简单文件处理系统向数据库系统变革 。 70年代:层次、网络和关系型数据库普及。 80年代:RDBS及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广发讨论,关系数据库技术和新型技术的结合。 90年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用, Data mining and data warehousing等出现。 本世纪开始: Data mining 得到理论/技术深化。,9,统计学的深入应用,强大有效的数理统计方法和工具,已成为信息咨询业的基础 。 统计分析技术是基于严格的
5、数学理论和高超的应用技巧的 。 数据挖掘技术是数理统计分析应用的延伸和发展 。 和数据库技术的结合性研究,10,人工智能技术的研究和应用,人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。 专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应用: 知识获取成为专家系统研究中公认的瓶颈问题。 知识表示成为一大难题:知识工程师在整理表达从领域专家那里获得的知识时勉强抽象出来的规则有很强的工艺色彩。 对常识和百科知识出奇地贫乏:人工智能学家Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。
6、数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。 机器学习得到了充分的研究和发展:理论和算法。 数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分支。,11,一 知识挖掘的原理与方法,数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的知识表示模式与方法 不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析,12,数据挖掘处于研究和应用探索阶段,经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。
7、大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段: 一方面,数据挖掘的概念已经被广泛接受。 另一方面,数据挖掘的大面积应用还有待时日。 随着KDD在学术界和工业界的影响越来越大,数据挖掘的研究向着更深入和实用技术方向发展: 大学等研究机构的大多数基础性研究集中在数据挖掘理论、挖掘算法等的探讨上。 公司的研究更注重和实际商业问题结合。 数据挖掘的经济价值已经显现出来:Gartner报告中列举重要影响的五项关键技术,其中KDD和人工智能排名第一。,13,数据挖掘研究聚焦点,数据挖掘在如下几个方面需要重点开展工作: 数据挖掘技术与特定商业逻辑的平滑集成问题:数据挖掘需要代表性的应用实例来证明(
8、像“啤酒与尿布” )。 数据挖掘技术与特定数据存储类型的适应问题:不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等。 大型数据的选择与规格化问题: 数据的噪音、信息丢失等问题的处理; 针对特定挖掘方法进行数据规格化等问题。 数据挖掘系统的构架与交互式挖掘技术: 在具体的实现机制、技术路线以及各阶段的功能定位等方面仍需细化和深入研究。 良好的交互式挖掘(Interaction Mining)也是数据挖掘系统成功的前提。 数据挖掘语言与系统的可视化问题:可视化挖掘除了要和良好的交互式技术结合外,还必须在挖掘结果或过程的可视化进行探索和实践。 数据挖掘理论与算法研究 一方面,在
9、已有的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。 另一方面,随着数据挖掘技术本身和相关技术的发展,新的挖掘理论和算法的诞生是必然的。,14,一 知识挖掘的原理与方法,数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的知识表示模式与方法 不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析,15,从商业角度看数据挖掘技术,数据挖掘从本质上说是一种新的商业信息处理技术: 数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。 通过对数据的统计、分析、综合和
10、推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。 从决策、分析和预测等高级商业目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的规律性知识。 从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。,16,数据挖掘的技术含义,数据库中的知识发现(KDD: Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。 KDD与Data Mining的关系,有不同的看法: KDD看成数据挖掘的一个特例:
11、这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。 数据挖掘是KDD的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。 KDD与Data Mining含义相同:事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法: KDD在人工智能界更流行,而Data Mining在数据库界使用更多。 在研究领域被称作KDD,在工程领域则称之为数据挖掘。,17,数据挖掘定义,数据挖掘定义有广义和狭义之分。 从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的
12、知识的过程。 从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。 下列技术不是数据挖掘: OLTP Expert systems Small ML Statistical programs,18,数据挖掘研究的理论基础,数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。 从研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。 有下面一些重要的理论视点值得关注: 模式发现(Pattern Discovery)架构 规则发现(Rule Discovery)架构 基于概
13、率和统计理论 微观经济学观点(Microeconomic View) 基于数据压缩(Data Compression)理论 基于归纳数据库(Inductive Database)理论 可视化数据挖掘(Visual Data Mining) 等等,19,一 知识挖掘的原理与方法,数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的知识表示模式与方法 不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析,20,根据挖掘任务,分类或预测模型发现 数据总结与聚类发现 关联规则发现 序列模式发现 相似模式发现 混沌模式发
14、现 依赖关系或依赖模型发现 异常和趋势发现等,21,根据挖掘对象,关系数据库挖掘 面向对象数据库挖掘 空间数据库挖掘 时态数据库挖掘 文本数据源挖掘 多媒体数据库挖掘 异质数据库挖掘 遗产数据库挖掘 web数据挖掘等,22,根据挖掘方法,机器学习方法 统计方法 聚类分析方法 神经网络(Neural Network)方法 遗传算法(Genetic Algorithm)方法 数据库方法 近似推理和不确定性推理方法 基于证据理论和元模式的方法 现代数学分析方法 粗糙集(Rough Set)或模糊集方法 集成方法等,23,根据知识类型,挖掘广义型知识 挖掘差异型知识 挖掘关联型知识 挖掘预测型知识 挖
15、掘偏离型(异常)知识 挖掘不确定性知识等,24,一 知识挖掘的原理与方法,数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的知识表示模式与方法 不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析,25,知识表示模式分类,数据挖掘的目的是发现知识,知识要通过一定的模式给出。通过对数据挖掘中知识表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。 主要知识模式类型有: 广义知识(Generalization) 关联知识(Association) 类知识(Class/Cluster) 预测型知识(P
16、rediction) 特异型知识(Exception),26,广义知识挖掘,广义知识是指描述类别特征的概括性知识。这类数据挖掘系统是对细节数据的所蕴涵的概念特征信息的概括和抽象的过程。 主要方法有: 概念描述(Concept Description)方法:概念描述本质上就是对某类对象的内涵特征进行概括: 特征性(Characterization)描述:描述某类对象的共同特征。 区别性(Discrimination)描述:描述不同类对象之间的区别。 多维数据分析可以看作是一种广义知识挖掘的特例 多层次概念描述问题:由数据归纳出的概念是有层次的,不同层次的概念是对原始数据的不同粒度上的概念抽象。例
17、如, “北京工业大学”能归纳出“北京市”、“中国”、“亚洲”等层次。 销售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每个属性的定义域都可能存在蕴涵于领域知识内的概念延伸。例如,DEPT能归纳出公司COMPANY、城市CITY或国家COUNTRY等层次 概念分层(Concept Hierarchy)技术:将低层概念集映射到高层概念集的方法,是一个常用的处理多层次概念描述的方法。,27,主要的概念分层方法,模式分层(Schema Hierarchy):利用属性在特定背景知识下的语义层次形成不同层次的模式关联。 这种关联是一种的全序或偏序关系。 例如,DEPT的模式分层
18、结构可能是:DEPTCOMPANYCITYCOUNTRY。 集合分组分层(Set-Grouping Hierarchy):将属性在特定背景知识下的取值范围合理分割,形成替代的离散值或区间集合。 例如,年龄EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,老年 。 操作导出分层(Operation-Drived Hierarchy):有些属性可能包含多类信息。 例如,一个跨国公司的雇员号可能包含这个雇员的所在的部门、城市、国家和雇佣的时间等。对这类对象可以作为背景知识定义它的结构,通过编码解析等操作完成概念的抽象。 基于规则分层(Rule-Based Hierarc
19、hy):通过定义背景知识的抽象规则,形成不同层次上的概念的抽象。,28,关联知识挖掘,关联知识挖掘的目的就是找出数据库中隐藏的关联信息。 关联知识反映一个事件和其他事件之间的依赖或关联。 关联可分为简单关联、时序(Time Series)关联、因果关联、数量关联等。 从广义上讲,关联分析是数据挖掘的本质。 关联规则挖掘(Association Rule Mining)是关联知识发现的最常用方法: 关联规则的研究最早的分支之一,最著名的Apriori算法。 是数据挖掘研究中比较深入的分支,许多关联规则挖掘的理论和算法已经被提出。,29,类知识挖掘,类知识(Class)刻画了一类事物,这类事物具有
20、某种意义上的共同特征,并明显和不同类事物相区别。 有两个基本的方法来挖掘类知识: 分类:分类是数据挖掘中的一个重要的目标和任务,是目前的研究和应用最多的分支之一。 分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。 分类技术是一种有指导的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。 聚类:数据挖掘的目标之一是进行聚类分析。 聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。 聚类属于无
21、指导学习(Unsupervised Learning) ),当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇(Cluster)。刻画了数据所蕴涵的类知识。,30,分类中的基础方法,决策树方法:基本的分类技术之一,如ID3及其改进算法ID4、ID5、C4.5、C5.0等;针对大训练样本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。 贝叶斯分类 :具有坚实的理论基础,理论上具有较小的出错率。但是,它的适应性差。 神经网络:作为一个相对独立的研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,因此产生了神经网络和数据挖掘技术的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 内容 提纲
链接地址:https://www.31doc.com/p-2583466.html