数据挖掘中的特征选择.ppt
《数据挖掘中的特征选择.ppt》由会员分享,可在线阅读,更多相关《数据挖掘中的特征选择.ppt(40页珍藏版)》请在三一文库上搜索。
1、数据挖掘中的数据归约问题,为什么需要数据挖掘,数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 数据爆炸但知识贫乏,2019/2/23,数据挖掘中的特征选择,3,数据挖掘的作用,数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术,2019/2/23,数据挖掘中的特征选择,4,有价值的知识,海量的数据,2019/2/23,数据挖掘中的特征选择,5,数据挖掘的应用,数据分析和决策支持 市场分
2、析和管理 客户关系管理 (CRM),市场占有量分析,交叉销售,目标市场 风险分析和管理 风险预测,客户保持,保险业的改良,质量控制,竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析,2019/2/23,数据挖掘中的特征选择,6,数据挖掘: 数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,2019/2/23,数据挖掘中的特征选择,7,数据挖掘的步骤,了解应用领域 了解相关的知识和应用的目标 创建目
3、标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等,2019/2/23,数据挖掘中的特征选择,8,选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识,2019/2/23,数据挖掘中的特征选择,9,数据挖掘和商业智能,支持商业决策的潜能不断增长,最终用户,商业分析家,数据分析家,DBA,决策支持,数据表示,可视化技术,数据挖掘,信息发现,数据探索,在线分析
4、处理(OLAP),多维分析(MDA),统计分析,查询和报告,数据仓库/数据市场,数据源,论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP),2019/2/23,数据挖掘中的特征选择,10,典型数据挖掘系统,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,2019/2/23,数据挖掘中的特征选择,11,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,2019/2/23,数据挖掘中的特征选择,12,数据挖掘的分类,预言(Predication):用历史预测未来 描述(D
5、escription):了解数据中潜在的规律,2019/2/23,数据挖掘中的特征选择,13,数据挖掘的主要方法,分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他,2019/2/23,数据挖掘中的特征选择,14,特征归约在数据挖掘中的作用,因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。 高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中
6、就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。,2019/2/23,数据挖掘中的特征选择,15,特征选择和特征降维是两类特征归约方法。,2019/2/23,数据挖掘中的特征选择,16,特征选择,特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。,2019/2/23,数据挖掘中的特征选择,17,特征选择的过程 ( M. Das
7、h and H. Liu 1997 ),2019/2/23,数据挖掘中的特征选择,18,特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3大类。,2019/2/23,数据挖掘中的特征选择,19,完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索(BFS ) (2) 分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索(Best First Search),2019/2/23,数据挖掘中的特征选择,20,启发式搜索 (1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中的 特征 选择
链接地址:https://www.31doc.com/p-2157040.html