大数据挖掘的挑战.pdf
《大数据挖掘的挑战.pdf》由会员分享,可在线阅读,更多相关《大数据挖掘的挑战.pdf(9页珍藏版)》请在三一文库上搜索。
1、大数据挖掘的挑战 我首先从哪个地方开始呢?我来问您一个问题,如果我们说一个问题是复杂的, 中国的词有很多,其实这个“ 复杂” 翻译成英文,它可能有三种含义之一: 第一种复杂 complicated ,就是讲这个问题本身它有很多细节,或者很难把它中 间的数学物理抽象出来。我举个例子,今天你身边有一个女孩子,有什么样的办法 可以拿到她的QQ 号让她喜欢上你,这个问题可能很复杂,你不一定好解决,但是 你没有办法把它变成数学和物理的问题,因为它有复杂的环境和复杂的心理。这类 “ 复杂” 不是我今天要考虑的。 第二类 “ 复杂 ” ,翻译成英文叫 “Hard”,就是这个问题很难,可能它说的很简单, 比如
2、说弥勒猜想、哥德巴赫猜想,它很难,并不是说我说不清楚它,而是即便我说 清楚了,你依然不好解决,很多书面的问题是这样。站在计算机科学的角度讲,一 个算法问题,如果我说它很难,很Hard 的难。什么意思呢?有两种。我们那来一 个算法问题,不管是什么算法,我都是要想办法让这个系统某种定义的能量最低, 不管怎么样优化。在这种情况下,我就可以得到在整个视能平面上若干个局部的绩 效值。我们讲的NP Hard 的问题,很难解决的问题,可以把它分成两个大类。一个 大类是由于在你所有解析空间的势能上面,你局部的最优值分布很怪异,并且有时 候有很深的沟,藏了很好的井。这些我们都把它分类为由于能量造成的困难。大家
3、十多年前刚刚接触到遗传算法,我们经常会想一些非常复杂的自行函数或者目标函 数,就是故意去造一些难度。最近几年,可能是五六年,使我们看到算法问题上的 另外一个难,这应该是第二个难。这个难什么意思?就是我站在势能空间点上,这 应该是非常高维的,我往四面八方看,四周都是非常平坦,我就不知道往哪个方向 走,这个时候我可获取的可分辨率很低,这时候我看不到远方是山谷还是山峰?这 就是可分辨率,来源于第二个难,这也不是我今天讲的难。所以我们未来处理一些 极其困难的问题,我们可以把它通过这两种分类选择合适的算法。 我们今天讲的问题是和大数据有问题的问题,是第三个“ 难” 。 我们知道大数据有很多特征,一个是特
4、征是快速产生快速处理,是时间性,是 大数据流流过来。第二个特征是空间大,如果你没有一个P 或者 Z 的数据,没有办 法叫大数据,空间很大。第三来源很多,在座有很多用智能手机的,你的微信、微 博,你手机上安了很多应用,还经常去电子商务买很多东西,很多文本视频图象的 数据,还有很多不同网站上的数据,这是关联复杂。所以我今天给大家聊的,我们 是考虑复杂的第三个方面,就是复杂性的方面。我们又分三个层面来理解,怎么样 在新的时代,我们讲在大数据的时代,去处理时间复杂性的问题?第二怎么处理空 间复杂性的问题?第三怎么处理关联复杂性的问题。为什么我们把所有的科学问题 集中这三个点呢?是因为一个科学问题并不是
5、因为我们本身有了解决方案,我今天 会尝试着讲一个解决方案,但是并没有完全解决它。而是在于我在这个时间点,我 必须要问这个问题,我对这个问题的选择和回答,是一个分水岭。就像刚才我师兄 刘明讲了很多 “Deep learning ”,实际上 “Deep learning ”它就代表了我们最后要讲的 关联复杂性分水岭。有一部分人是慢慢通过“Deep learning ”,选出来再做其他的学 习这一条路,有些人又走几十年的老路知识挖掘。 这个时候我们要怎么去处理它,现在我们回到正题,开始一个个讲。 第一个大的问题,我们叫做大数据尤其是流数故数据动态处理中的时间复杂性 的度量和简约的问题,以前我们提到时
6、间复杂性的东西,N 平方、 N 立方等等。真 的在现代时代, N 平方立方 4 平都不一定能解决得了,因为你要处理很多实时信息。 在座很多淘宝和天猫的同事,你们要做实时推荐,这个时候数据的整体规模和你算 法规模之间是没有关系的。也就是说我们以前有一个大问题,要看我们算法是不是 O(N)平方,现在我们一定要假设这个N 是无穷大,也就是说真正的增量算法带来一 些全新的算法复杂性度量的理论。这个时候我们要假想,我们有十亿人从你身边慢 慢流过来, 或者很快流过来。 你不能再去考虑, 这十亿人和你的算法有什么管关系, 而是要说我一定要抓住当前推进这一个人。我的算法的复杂性和处理对空间和时间 的需求,一定
7、只是针对你当前流过来的人给出的判断。这个时候我们就要处理很多 很烦的问题,举个例子,一个人来了,他本来是个点数据,但是肯定会带来很多关 联。比如说是一个网络,他肯定会带来很多联系,他可能跟你前面数据库流过来的 100 个人有联系, 可能他跟 10 万个人有联系。 有的人可能朋友只有五六个,有些人 可能有几十万、上千万个粉丝。我们有很多处理办法,有一个功能就是我们实时窗 口化。有时候可能对你的影响,你最近一个月的购买行为,对你影响最多。有些人 一个月可能会买很多东西, 有些人前一个月可能什么都不买。但是你把它按照action 来划分,就认为前十个action 对你有影响,以前所有的东西我都根据时
8、间的含权把 它变成很多可以调的东西,放再一个桶里面,这是一个办法。这时候我们在权衡这 些办法的时候,你要想清楚,怎么样在你设计算法和实时推荐的时候,你要能够把 握住,由于一个人回来的脉冲,比如说他有特别高的度和特别高的购买,这些细节 的东西不讲了,但是你们大概能感觉到。 所以说这个时候,我们在评价一个算法的时候,这个算法最好的话,能够收进 来的数目和时间窗口的长度,和我要考虑的action 的长度,数目都是可控的。 第二, 所有的增量算法,我要对它第二点把控,当它增量足够多的时候,不能够重算。当 你不停的生成数据去的时候,它的误差会越来越大,迟早有一天要求你完全重算, 当我们想象未来数据有无限
9、大,很多时候这种重算是不可能的。这个时候我们要求 所有参与的程序员都是帮助你的;第二个要求, 我们要求这种算法, 它的误差增加, 随着你的桶的增加,它能够自动调节,使它越来越小,而不是越来越大。这两个问 题,是处理大数据在时间方面这种复杂挑战的最大的问题。具体到里面的一些应用 的话,我觉得像LBS的实时推荐,包括在线的,通过一个人来了,我既有它长期的 模型又有短期做情景计算,瞬间建立起模型。比如说他到天猫来是逛还是买呢?看 一个资讯是看一个八卦还是相关内容,要建立一个快速模型,这都是相关的。这是 大家关注的第一个问题。 第二个大家要关注的问题,我觉得是空间的复杂性的度量和简约。为什么我们 要关
10、注这个问题呢?因为这实际上是来自于两个趋势。在很早的时候,我们觉得不 管怎么样,再大规模的数据,我们要求全体数据。实际上有很多时候,你们在座做 企业的都明白, 做科研我们经常会做全体数据。你要真正拿全体数据是不太现实的, 这个时候要想到一个大的问题,当你拿到一个数据又能了解一个你的目标的时候, 这个数据压缩比和实证率目标是什么?它的极限是什么?我举几个实在的例子和应 用的方法,还是从简单开始。比如说ICF,这是一个非常典型的算法。我们做一些 Case,比如说我们采集了1000 多万手机的数据,都是安卓系统的,上面大概有4 万多个应用,我们会发现当我算到七八十万人的时候,这四万多个应用,会形成一
11、 个数据。用这个数据去做推荐的时候,得到的效果跟我用完1700 多万的时候是一 致的。这个东西是可以算的,因为你计算误差,我们不能假设它满足某种高度的分 布,但是可以推钻。这个时候我大概要多少个连接,才能够把它估计到什么程度? 我们会发现,你把结果应用到什么程度。结果我们就发现,你只需要随机去选择一 些用户,或者你还有更优化的办法,你只需要百分之几,一般是2% 、3% 的用户, 就可以做得非常好。在北京我们有一个平台,每天就要发布推荐。,我们专门是为 了做游戏与游戏的互推荐,我们专门准备了100 台服务器的架构,最后我们只用了 8 台服务器就完成了这个事情,我们最终采源了200 万智能手机,就
12、没有用原来的 计算。这个点很简单,我压缩的是什么?我压缩的是结点。我们看用户,我把这个 用户的数目大幅度压缩了,压缩到原来的2% 、3% ,我还能达到基本上一样的办法。 第二种办法我压缩边, 我认为有些压缩连边是可以压缩的。怎么办呢?我们在做UCS 的时候,我们有一套办法,在整个大网络中把绝大部分链接都去掉,只剩下一个信 息骨架。利用这个信息骨架甚至比原来所有的推荐更好,只需要原来的10%的 action ,去掉可能的噪音边。这并不是我讲的信息,我想讲我们面对一个大数据的 时候,我们可以丢掉它90% 以上的部分,还能保证比较好的效果。为了把这个事情 做得更好,我们会想一些数据压缩的办法。 在空
13、间上,比如说大家都知道,可能以前做过,叫做重整化群的办法,最近发 明的这个诺贝尔奖得者刚刚去世。通用化群最早是为了解决,就是我有一个自旋二 分之一的电子或者什么样的例子,它的Spin 要么自旋向下,要么自旋向下,如果是 两个相邻的 Spin,你如果是同自旋或者异方向自旋,一个向下一个向下,它的能量 不一样,我怎么找到一个最终的构型?这是一个非常难的问题。在处理这个问题的 时候,我们有的时候为了去寻找它的相链点,我们就会把一大块东西,比如说我把 4 4 16 个 Spin,我根据它的自旋方向认为是一个Spin。这样可能原来我就把 1000 1000 的 Spin,我把它压缩成500 500,再变
14、成 250 250。回到电子商务的 时候讲,很多时候我们实际上是在两样东西中做权衡,一个是粒度。如果你在品类 这个层面推荐,很准确。以淘宝为例,比如说淘宝的数据,如果说我只是去参与到 用户到下一个时刻到淘宝的哪一个一级品类,猜准的比率在85% 左右。如果我要猜 你买什么单品,我要猜你要买哪个单品,能猜中有20% 、30% 就发大了。在品类很 容易,猜单品不容易。但是有时候我拿到那个数据以后,我不能够想我有单品数据 就很牛,单品数据最好?其实不然,有的时候这种数据能够带来巨大的噪音。举个 例子,比如说我们如果要去做一些周期的推荐,什么时候牙膏用完了,给你推荐一 个牙膏。如果你在单品里面,比如说中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 挑战
链接地址:https://www.31doc.com/p-4736863.html