多源异构大数据的机器学习关键技术研究进展.pdf
《多源异构大数据的机器学习关键技术研究进展.pdf》由会员分享,可在线阅读,更多相关《多源异构大数据的机器学习关键技术研究进展.pdf(42页珍藏版)》请在三一文库上搜索。
1、多源异构大数据的机器学习关 键技术研究进展 多源异构大数据的机器学习关 键技术研究进展 徐增林徐增林 电子科技大学 大数据研究中心 计算机科学与工程学院 电子科技大学 大数据研究中心 计算机科学与工程学院 统计机器智能与学习实验室 统计机器智能与学习实验室统计机器智能与学习实验室 (Statistical Machine Intelligence & LEarning, SMILE) 网址:http:/ 研究目标: 复杂多源异构数据处理技术复杂多源异构数据处理技术:分类、聚类、半监督学习、多核学习、 特征选择、多任务学习、多视角学习、集成学习、网络分析、张量分 析 统计机器学习理论研究统计机
2、器学习理论研究: 近似算法、随机投影算法、稀疏学习等的理论 贝叶斯图模型研究贝叶斯图模型研究:高斯过程、主题模型、隐变量模型 机器学习的优化与推断研究机器学习的优化与推断研究:最优化算法、Variational Inference、先进 采样算法、混合算法 机器学习大数据平台研究机器学习大数据平台研究:在线学习、分布式学习 机器学习在社会网络、神经信息学、健康、安全等领域的应用 大数据挖掘与推理研究所 大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning)电子科大大数据研究中心 大数据挖掘与推理研究所 (Institute of Big
3、 Data Mining and Reasoning)电子科大大数据研究中心 研究目标: 异构多源大数据处理与建模异构多源大数据处理与建模 实时数据处理、多源数据处理、时间空间数据分析、复杂网络数据分析、金 融大数据建模、媒体大数据建模、医学大数据建模、移动大数据建模 大数据智能计算与分析技术大数据智能计算与分析技术 分布式大数据查询技术、先进机器学习与数据挖掘理论研究、并行化机器学 习和数据挖掘算法研究、随机化算法与在线学习、社会网络分析、Web挖掘 与检索、商业智能、排名与推荐算法、深度学习算法、大数据降维技术 大数据分布式计算模型与系统大数据分布式计算模型与系统 大数据分析平台Hadoo
4、p/Spark性能优化与功能增强、大数据机器学习平台研 究、面向行业应用(如医疗、教育、安全、移动数据)的大数据分析与学习 平台设计等 大数据知识表示与推理技术研究大数据知识表示与推理技术研究 大型本体知识库构建方法和本体映射等知识深层理解的关键处理算 法、知识的深层表示、大型知识库上逻辑推理机制和机器学习 大数据挖掘与推理研究所 电子科大大数据研究中心 大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning) 电子科大大数据研究中心 大数据挖掘与推理研究所 (Institute of Big Data Mining and Reason
5、ing) 主要人员: 周涛 (大数据中心主任、优青、拔尖、教授) 申洪涛 (大媒体计算中心主任,千人计划入选者) 徐增林(青年千人计划入选者,教授) 符红光 (863子课题负责人) 邵俊明(校百人、教授) 邵杰(校百人、教授) 杨阳 (校百人、教授) 尚明生 (教授) 加入我们 研究助理/博士生/硕士生研究助理/博士生/硕士生 特聘教授/特聘副教授/骨干教师/在职和脱产博士后特聘教授/特聘副教授/骨干教师/在职和脱产博士后 中组部“青年千人计划”入选者徐增林教授团队,因科研和教学工作需要,面向 海内外诚聘优秀青年学者加盟。团队的研究着重于机器学习、统计学习、数据挖 掘技术及其在社会网络分析、医
6、学图像处理、空间安全数据分析、神经信息学等 方面的应用。 详情: http:/ http:/ 在研项目: 1. 运维大数据平台设计与实现 2. 医疗大数据分析平台设计与实现 3. 基于异构计算的大数据平台设计与实现 报告提纲报告提纲 大数据的发展大数据的发展 大数据分析面临的挑战大数据分析面临的挑战 大数据机器学习算法与平台大数据机器学习算法与平台 大数据发展历史 大数据在计算机科学中处于最前沿 大数据 改变未 来战争 大数据 摧毁暴 力恐怖 大数据 维护公 共安全 美国大数据研究和发展计划、欧盟Horizon 2020计划都把大数据提到了国家安全战略层 面 数字主权是继海、陆、空、天四空间之
7、后另 一个大国博弈的空间 基于海量数据分析决策的“近传感器计算” 将成为未来战争的典型形态 阿富汗反恐战争中针对每股恐怖分子的全方 位情报侦监系统每天产生数据量平均达到53T 美国国家安全局局长亚历山大在众议院特设 情报委员会听证会时指出,通过“棱镜”等 监视项目所获得的情报数据及相应分析,美 国政府至少防止和挫败了50起恐怖袭击事件 通过大数据采集分析,监测异常行为,发现 和制止不法行为 通过大数据分析,提高犯罪行为实施前的预 防能力和实施后的出警效率 通过大数据分析,提高刑侦队伍的破案率 大数据维护安全 个人基因测序数据可以对已患疾病进行针对性治 疗,对可能疾患进行提前预防 非干预穿戴设备
8、通过实时采集脉搏、血压、体表 导电率、压力等等指标对预警突发疾病、实时监 控个体健康情况,为残疾人、老年人、婴幼儿和 特定疾病患者提供实时的个性化服务 通过对诊疗过程数据的分析,可以为初级医院疑 难病例的治疗提供智能决策辅助、发现患者骗保 行为、监测医院、诊室甚至个别医生不正常的过 度医疗和用药行为 加拿大Student Success Systems 基于学生个体 数据分析给出发展状况评估、学业成长预测和个 性化引导方案 美国DreamboxLearning 和MyLab根据不同学生在 线学习的情况,设计个性化自适应的学习方案 大数据最终帮助形成在定量化基础上的教学引导 和教学管理 大数据
9、辅助健 康管理 大数据 实现个 性教育 大数据改善民生 报告提纲报告提纲 大数据的发展 大数据分析面临的挑战大数据分析面临的挑战 大数据机器学习平台大数据机器学习平台 数据量大且复杂,而分类数据太少,如 何充分利用对未分类数据的质量分析来 提高分类算法性能? 多源异构数据语义丰富,如何构建 融合多源数据的泛化模型? 或发 现多源数据间的关联关系? 复杂数据对象存在多个方面,如何通过 数据分析来刻画多个方面之间的相互关 系? 1 2 3 12 挑战 挑战一: 未分类数据多样性 大量未分类数据已分类数据大量未分类数据已分类数据 未分类数据具有无序性,分布多样性分布多样性等特点- 相同分布 或弱 相
10、关、结构相似、有杂质、高位等。 不相关有偏差 大象犀牛 提高数据分类的准确率 节省专家对数据标记的成本 研究意义研究意义研究意义研究意义 未分类数据的复杂性和多样性 数据的高维度 难点所在难点所在难点所在难点所在 利用图的性质(Graph Laplacian)对图进行分割: Graph Cut = 1 Graph Cut = 2Graph Cut = 1 半监督学习示例:基于图的算法 S3VM的原理是在照顾已分类数据的情况下,保证相对于未 分类数据的决策面边界最大,且决策面应尽量穿过低密度 区域。 半监督学习示例:半监督支持向量机 未分类数据分布多样性建模 相同分布 Semi-supervis
11、ed Learning Xu Z., et al (2007), Efficient convex relaxation for transductive support vector machine. NIPS 分布有差异 Covariance-shifting 存在弱相关关系 Adaptive Regularization Xu Z., et al (2009), Adaptive regularization for transductive support vector machine. NIPS. 结构上存在相似关系 Self-taught Learning Huang K., Xu
12、 Z., et al.(2009), Supervised self-taught learning: Actively transferring knowledge from unlabeled data, IJCNN . 好的数据与不相关数据的混合 Generalized semi-supervised learning Huang K., Xu Z., et al (2008), Semi-supervised learning from general unlabeled data. ICDM. Lable不足,无unlabeled dataActive Semi-supervised
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多源异构大 数据 机器 学习 关键技术 研究进展
链接地址:https://www.31doc.com/p-3332952.html