教育系统中的多变量分析及其应用.ppt
《教育系统中的多变量分析及其应用.ppt》由会员分享,可在线阅读,更多相关《教育系统中的多变量分析及其应用.ppt(77页珍藏版)》请在三一文库上搜索。
1、数据挖掘及其应用,傅德荣,内 容,一、数据挖掘概述 二、DM与教育 三、教育应用 四、基于聚类的DM 五、马氏距离及其应用(判别分析) 六、数量化类应用 预约数的预测 超市顾客数预约 问卷设计与分析,一、数据挖掘概述,1.数据挖掘(Data Mining)定义 从大量数据中发现信息、看法、知识、假设、课题的处理和方法。 KDD(Knowledge Discovery in Database) DM是KDD的挖掘、发现部分。 发掘数据中内在的规则、知识 专家系统:抽出专家头脑中的知识,以便利用 DM:发掘数据中内在的、非明示的知识。 期待:信息社会中洪水般信息带来的诸问题的解决对策。,2. DM
2、的处理过程,()DM的处理过程,(1)数据仓库:获取、选择相关目的数据 (2)对数据进行重要的前期处理、变换 (3)从数据中发现知识 (4)对多发现的知识解释、评价、应用 这个过程可认为是知识发现的过程。 有时对(3)也称之为DM 。 从(1) (4)不是单纯的直线进行,在每一处理阶段为了达到满意的结果,还需要返回前面的阶段,这个处理过程可能需要多次反复。,()DM处理的说明,一、数据的获取、选择 理解对象领域的性质 具备对象领域的基本知识 设定DM的目标 对象领域的数据集中在多个体内,并对这些库集中管理称之为数据仓库。 对库内数据集合挖掘时应基于选定的目标。 计算机支持是导致DM成功的重要处
3、理。,二、数据的预处理,从目标数据中消除杂音、异常值 连续数据离散,分类离散数据连续化、修补。 单位变化,坐标变换规范化 根据DM算法的要求,数据变换,预处理数据应是能符合知识发现算法要求的数据,所以数据变换可考虑到入预处理,即预处理应包含直接数据变换及其以前的全部过程。此外,还应包括属性的选择,属性的抽出,属性的建构,事例的选择。,许多知识发现的算法是以表形式的数据为对象的,数据变换的记过,往往是以表形式给出的。然而,文本信息,Web信息,判别是属性信息、药物信息等多为表形式的信息,它们是一般的表形式信息,需要别的变换处理。,三、知识发现,利用知识发现的算法,可从数据中抽出我们感兴趣的知识的
4、候补(准知识)。利用的手法主要是统计的方法,机器学习的方法、数据挖掘的传统方法。 探索空间通过输入各种方法所规定的参数的选择多规定。 其结果,可得到概念的描述,分类的规则、相关的规则。决策树、聚类,针对不同性质,不同数量的数据,应使用不同的算法。,四、数据的解释与评价,抽出的准知识,经过解释、评价可得到完全的知识。若在此阶段还得不到这样的宏观知识,则应返回以上的步骤。究竟返回到哪一步只有在处理的过程中方能确定,也有可能返回新的数据收集。对于所得到的知识是否是所需的有用知识,应对照最初设定的标准来确认。,数据挖掘的结果及其解释应置于重要的未知,这是DM的重要特性,用户(专家)不能理解的知识是不能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育系统 中的 多变 分析 及其 应用
链接地址:https://www.31doc.com/p-2546969.html