周志华团队和蚂蚁金服合作:开发了一种分布式的深度森林算法.doc
《周志华团队和蚂蚁金服合作:开发了一种分布式的深度森林算法.doc》由会员分享,可在线阅读,更多相关《周志华团队和蚂蚁金服合作:开发了一种分布式的深度森林算法.doc(7页珍藏版)》请在三一文库上搜索。
1、周志华团队和蚂蚁金服合作:开发了一种分布式的深度森林算法互联网公司每天都面临着处理大规模机器学习应用程序的问题,因此我们需要一个可以处理这种超大规模的日常任务的分布式系统。最近,以集成树为构建模块的深度森林(Deep Forest)算法被提出,并在各个领域取得了极具竞争力的效果。然而,这种算法的性能还未在超大规模的任务中得到测试。近日,基于蚂蚁金服的参数服务器系统“鲲鹏”及其人工智能平台“PAI”,蚂蚁金服和南京大学周志华教授的研究团队合作开发了一种分布式的深度森林算法,同时提供了一个易于使用的图形用户界面(GUI)。为了满足现实世界的任务需求,周志华团队等对原始的深度森林模型进行了诸多改进。
2、针对超大规模的任务,如套现欺诈(cash-out fraud)行为的自动检测 (拥有超过1亿的训练样本),研究人员测试了深度森林模型的性能。实验结果表明,在不同的评估标准下,只需微调模型的参数,深度森林模型便能在大规模任务处理上取得当前最佳的性能,从而有效地阻止大量套现欺诈行为的发生。即使和目前已经部署的其他最佳模型相比,深度森林模型依然能够显著减少经济损失。简介对于蚂蚁金融这样的金融公司,套现欺诈行为是常见危害之一。买家通过蚂蚁金融发行的蚂蚁信用服务与卖家进行交易支付,并从卖家处获得现金。如果没有合适的欺诈检测手段,那么每天诈骗者就能够从套现欺诈中获取的大量现金,这对网络信用构成了一个严重的
3、威胁。目前,基于机器学习的检测方法,如逻辑回归 (LR) 和多元加性回归树 (MART),能够在一定程度上预防这种欺诈行为,但是我们需要更有效的方法,因为任何微小的改进都将显著地降低经济损失。另一方面,随着数据驱动的机器学习模型有效性的日益提高,数据科学家经常与产品部门密切合作,为这些任务设计并部署有效的统计模型。对数据科学家和机器学习工程师来说,希望通过一个理想的高性能平台来处理大规模的学习任务 (经常有数百万或数十亿的训练样本)。此外,这个平台的搭建过程要简单,并能运行不同的任务以提高生产力。基于树结构的模型,如随机森林和多重加权回归树模型,仍然是各种任务的主要方法之一。由于这种模型的优越
4、性能,在 Kaggle 比赛或数据科学项目中大部分的获胜者也都使用集成的多元加性回归树模型 (ensemble MART) 或其变体结构。由于金融数据的稀疏性和高维性,我们需要将其视为离散建模或混合建模问题,因此,诸如深度神经网络结构的模型并不适用于蚂蚁金融这种公司的日常工作。最近,周志华研究团队提出了一种深度森林算法,这是一种新的深层结构,无需进行微分求解,特别适合树结构。相比于其他非深度神经网络模型,深度森林算法能够实现最佳性能;而相较于当前最佳的深度神经网络模型,它能实现极具竞争力的结果。此外,深度森林模型的层数及其模型复杂性能够自适应于具体的数据,其超参数的数量还比深度神经网络模型要少
5、得多,可视为是一些现成分类器的优秀替代品。在现实世界中,许多任务都包含离散特征,当使用深度神经网络进行建模时,处理这些离散特征将会变得一个棘手的问题,因为我们需要将离散信息进行显式或隐式地连续转换,但这样的转换过程通常会导致额外的偏差或信息的丢失。而基于树结构的深度森林模型能够很好地处理这种数据类型问题。这项工作中,我们在分布式学习系统“鲲鹏”上实施并部署了深度森林模型,这是分布式深度森林模型在参数服务器上的第一个工业实践,能够处理数百万的高维数据。此外,在蚂蚁金服的人工智能平台上,我们还设计了一个基于 Web 的图形用户界面,允许数据科学家通过简单地拖动和点击就能自如地使用深度森林模型,而无
6、需任何的编码过程。这将方便数据科学家的工作,使得构建和评估模型的过程变得非常有效且方便。我们在这项工作中的主要贡献可以总结如下:基于现有的分布式系统“鲲鹏”,我们实现并部署了第一个分布式深度森林模型,并在我们的人工智能平台 PAI 上为其搭建了一个易于使用的图形界面。我们对原始的深度森林模型进行了许多改进,包括 MART 作为基础学习者的效率和有效性,诸如基于成本的类别不平衡数据的处理方法,基于 MART 的高维数据特征选择和不同级联水平的评估指标的自动确定等任务。我们在套现欺诈行为的自动检测任务上验证了深度森林模型的性能。结果表明,在不同的评估指标下,深度森林模型的性能都明显优于现有的所有方
7、法。更重要的是,深度森林模型强大的鲁棒性也在实验中得到了验证。系统介绍鲲鹏系统鲲鹏是一款基于参数服务器的分布式学习系统,该系统主要用于处理工业界出现的大规模任务。作为生产级别的分布式参数服务器,Kunpeng 系统具有如下几大优点:(1) 强大的故障转移机制,保证大规模工作的高成功率; (2) 适用于稀疏数据和通用通信的高效接口; (3) 用户友好型的 C + 和 Python 系统开发工具(SDKs)。其结构简图如下图1所示:图1:鲲鹏结构简图,包括 ML-Bridge,PS-Core 部分。用户可以在 ML-Bridge 上自如地操作。分布式 MART多元加权回归树模型 (MART),也称
8、为梯度提升决策树模型 (GBDT) 或梯度增强机模型 (GBM),是一种在学术和工业领域广泛使用的机器学习算法。得益于其高效而优秀的模型可解释性,在这项工作中我们在分布式系统中部署 MART,并将其作为分布式深度森林模型的基本组成部分。此外,我们还结合了其他的树结构模型进一步开发深度森林模型的分布式版本。深度森林模型结构深度森林模型是最近提出的一种以集成树为构建模块的深度学习框架。 其原始版本由 ne-grained 模块和级联模块 (cascading module) 构成。在这项工作中,我们弃用了 ne-grained 模块,并建立了多层的级联模块,每层由几个基础的随机森林或完全随机森林模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 周志华 团队 蚂蚁 合作 开发 一种 分布式 深度 森林 算法
链接地址:https://www.31doc.com/p-3406004.html