移动数据挖掘.html.pdf
《移动数据挖掘.html.pdf》由会员分享,可在线阅读,更多相关《移动数据挖掘.html.pdf(100页珍藏版)》请在三一文库上搜索。
1、丛书前言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产 业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高 等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才 培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好 的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传 导给学生。 为此我们意识
2、到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维 和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩 负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。 在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和 补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数 据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人
3、才培养起到“基石”的作 用。 丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。 虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前 的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。 丛书特点:丛书借鉴Morgan&Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新 颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足
4、(或延伸或补充),内容涵盖大数据管理的理论、方 法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说 明,便于施教。 丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email: )担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email: )。 在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中 国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见 和
5、建议。 丛书即将出版书目 大数据管理概论 孟小峰 主编 2017年5月 异构信息网络挖掘:原理和方法 美孙艺洲(Yizhou Sun) 韩家炜(Jiawei Han)著;段磊 朱敏唐常杰 译 2017年4月 大规模元搜索引擎技术 美孟卫一(Weiyi Meng) 於德(Clement T.Yu)著;朱亮 译 2017年4月 大数据集成 美董欣(Xin Luna Dong) 戴夫士斯里瓦斯塔瓦(Divesh Sriva-stava)著 王秋月 杜治娟 王硕 译 2017年4月 短文本数据理解 王仲远 编著 2017年4月 个人数据管理 李玉坤 孟小峰 编著 2017年4月 位置大数据隐私管理 潘
6、晓 霍峥 孟小峰 编著 2017年4月 移动数据挖掘 连德富 张富峥 王英子 袁晶 谢幸 编著 2017年4月 云数据管理:挑战与机遇 美迪卫艾肯特阿格拉沃尔(Divyakant Agrawal) 苏迪皮托达斯(Sudipto Das) 阿姆鲁埃尔阿巴迪(Amr El Abbadi)著;马友忠等译 2017年5月 前言 随着室内外定位、移动社交网络和物联网技术的发展与普及,移动数据的种类、规模和产生速度都在迅速增长。这些数据中 有很大一部分是由人产生的,也就是通过各种方式记录下来的人的活动历史。它们包含了大量的知识,对于众多实际应用有着重 要的价值。我们可以通过对这些数据进行挖掘,来发现人类出
7、行的规律,并针对用户的属性和兴趣爱好生成画像,从而为用户提 供更加个性化的服务,包括交通出行规划、旅游线路和购物餐饮推荐等。这些知识还能用来研究疾病传播、城市发展及人类迁徙 等具有重大社会意义的科学问题。近年来,针对移动数据的挖掘已经成为学术界和工业界的热点之一。 本书作者所在的研究团队从十年前就开始在该领域开展研究,并在2006年进行的GeoLife项目中通过用户分享的移动数据研 究用户的出行模式,为旅游线路规划等应用提供支持,相关论文也被广泛引用。本书第一作者,即目前任教于电子科技大学的连 德富教授,长期针对基于移动数据的推荐系统进行研究,已经发表了大量有影响力的研究成果。 在实际应用中,
8、移动数据的形式多种多样,既有来自移动社交网络的签到数据、来自运营商的日志数据,也有来自公交计费 系统的刷卡记录数据。本书从分析移动数据的特性出发,探讨和设计针对移动数据的数据挖掘算法,并指出在该领域展开研究将 要面临的挑战。 希望本书能够帮助有兴趣研究移动数据挖掘的读者缩短学习的过程,并共同推进该领域的研究进展。 第1章 引言 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据挖掘算法需要更多地利用移动数据的特性,挖掘与这些特性 有关系的模式。比如,研究发现,移动数据通常具有空间的聚集效应,即人们总是在少数的几个地点(家、工作场所等)附近活 动,因而如何在数据挖掘的过程中考虑这一特性,便
9、是移动数据挖掘需要重点考虑的一个问题。那么,移动数据具体是什么、有 哪些特性、移动数据挖掘有什么任务、将要面对哪些挑战呢? 1.1 移动数据及其价值 移动数据是移动轨迹的集合,而移动轨迹可以简单地认为是移动记录的有序序列,既可以是人的移动数据,也可以是任何其 他动物的移动数据。本书关注的是人类的移动历史。人类的移动历史具有更多的不确定性,他们并非总是愿意保持固定不变的生 活规律,因而人类的移动数据中具有更加丰富的移动模式。人们可以通过携带GPS设备直接收集移动数据,也可以将诸如出租 车、公交车、飞机、火车等移动对象作为载体来间接收集他们的移动数据。这种移动数据收集的普适性得力于移动通信和传感设
10、 备等位置感知技术的发展和智能移动设备的普及,使得移动对象无论身处室内还是室外都可以更加容易地获取他们自身的地理位 置信息。目前最先进的定位系统不仅依赖于全球卫星定位系统的高精度定位,还依赖于Wi-Fi和基站的较为粗略但范围更广的定 位。出于业务本身或未来业务扩展及研究的需要,移动对象的很多定位数据都会被保留下来。由于与业务的强相关性,用户群的 大小及位置的采样频率也决定了这些存留的位置数据不仅数量巨大,而且数据产生的速率很高。比如,运营商出于高效通信的需 求会记录每个移动用户的服务位置,由于用户的规模巨大,因此每天产生的位置数据量也是非常巨大的。据我国三大运营商的运 营数据显示,截至2015
11、年12月,中国电信、中国移动和中国联通的用户数分别高达1.979亿户、8.26亿户和2.866亿户。假如每 人每天平均通信一次,那么每天就会有约13亿条的位置数据。 然而,正如基站定位数据是存储在运营商手中的一样,位置数据一般不会保存在移动对象的手中,外加数据量巨大,使得移 动数据的开放受到了很大的约束。不过,随着移动互联网和在线社交网络的发展,诸如街旁网、Foursquare、Facebook Place 等位置社交网络应运而生。在位置社交网络中,人们可以便捷地跟踪和分享诸如他们在什么地方和什么时候做了什么事情的签到 (check-in)记录等位置访问信息。同样,源于与在线社交网络的结合,位
12、置社交网络中的用户群也是巨大的,使得用户的移 动数据也得到了大量的积累。根据街旁网的官方数据,从2010年5月上线到2013年7月,街旁用户数已经突破了500万,累计签 到次数超过8000万次。根据Foursquare的统计数据,从2009年3月上线到2013年12月,用户数已经达到了4500万,累计签到 数高达50亿。 这些大规模移动数据的积累,为基于位置的智能服务提供了重要的基础条件。目前,这些基于位置的智能服务开辟了一个正 在快速增长的市场。一份来自MarketsandMarkets的研究报告预计,诸如导航、移动广告、移动社交网络等基于位置的智能服 务的市场份额将从2016年的113亿美
13、元增长到2020年的549亿美元1。下面我们列举一些基于位置的智能服务的重要案例。通 过分析大量的历史活动轨迹数据或出行数据,为人们的日常出行和旅游给出合适的路线和兴趣点的推荐2345。基于位置社 交网络数据,挖掘本地人和外地人涉猎区域上的差异性,从而帮助人们学习到本地化的相关知识,比如利用北京本地人的生活经 验,给来北京旅游的外地人推荐性价比较高的餐馆和酒店6。东京大学联合微软亚洲研究院利用一百多万人三年的GPS轨迹、 日本的自然灾害资料及灾害的官方和新闻媒体报道,来分析建模灾后人们的移动行为规律,从而生成并模拟灾害发生后的最优移 动线路7。如AirSage公司一般每天通过处理来自上百万手机
14、用户的150亿条位置信息,为美国的100多个城市提供实时交通信 息8。微软研究人员提出的T-Drive系统9可分析33000辆北京出租车的GPS轨迹,来帮助出行人员得出更优的驾车路线。测 试证明,推荐的驾车路线和Bing Maps或Google Maps内置的路线搜索相比,有60的路线更优,可节省16的时间。类似 地,他们还设计了T-Finder系统10,不仅可以为出租车司机推荐具有高密度客源的邻近区域,从而减少了出租车司机的空载时 间,还可以为乘客推荐有更高上车概率的邻近上车地点,从而减少了乘客的等待时间。无线数据科技公司(Jana)使用来自 100多个国家的、超过200个通信运营商提供的、
15、覆盖了大约35亿人口的基站连接数据,将其转换为用户移动轨迹之后,来研究 疾病传播、城市发展、人类迁移等具有重大意义和价值的科学问题11。传统的车险业一般是通过评估群体的平均风险来为车 险定价,但是当保险公司分析了车辆出行时间、常见行驶地点和实际行驶过程等移动数据之后,便可以转变为对每个客户的个性 化风险评估和车险定价,从而改变了车险业的运营方式12。联合包裹运输公司(UPS公司)收集运输车辆的行驶轨迹信息, 并为它们提供最佳行车路线,从而减少燃油消耗、降低故障成本,在商业模式上取得了巨大的成功。据统计,仅2011年,UPS 公司旗下的车辆行驶路程就缩短了4828万公里,间接减少了1136万升的
16、燃料和3万吨二氧化碳的排放13。从最后的两个案例可 以看到,移动数据的挖掘与分析甚至可以改变公司业务的运作方式,暗含了巨大的商业价值。 1 http:/bit.ly/1mda1Hv。 2 D Lian,C Zhao,et al.Geomf:joint geograph-ical modeling and matrix factorization for point-of-interest recommendationC.In Proceedings of KDD14,ACM,2014. 3 M Ye,P Yin,et al.Exploiting geographical influence f
17、or collaborative point-of-interest recommendationC.In Proceedings of SIGIR11,ACM,2011. 4 V Zheng,B Cao,et al.Collaborative filtering meets mobile recommendation:Auser-centered approachC.In Proceedings of AAAI10.AAAl Press,2010. 5 Y Zheng and X Xie.Learning travel recommendations from user-generated
18、gps tracesJ.ACM Transaction Intelligent Systems Technology.(TIST),2011,2(1):2. 6 Z Yang,N J Yuan,et al.Indigenization of urban mobilityC.arXiv preprint arXiv:1405.7769,2014. 7 X Song,Q Zhang,et al.A simulator of human emergency mobility following disasters:Knowledge transfer from big disaster dataC.
19、In Proceedings of AAAI15,2015. 8 C W Smith,I Clayton Wilkinson,et al.System and method for providing traffic information using operational data of a wireless network: US Patent,6,842,620P.Jan.11,2005. 9 J Yuan,Y Zheng,et al.T-drive:driving directions based on taxi trajectoriesC.In Proceedings of GIS
20、10,ACM,2010. 10 N J Yuan,Y Zheng,et al.T-finder:A recommender system for finding passengers and vacant taxisJ.Knowledge and Data Engineering,IEEE Transactions on,2013,25(10):2390-2403. 11 S Hill,A Banser,et al.Reality mining africaC.In AAAI Spring Symposium:Artificial Intelligence for Development.Ci
21、teseer,2010. 12 T Litman.Distance-based vehicle insurance:feasibility,costs and benefitsEB/OL.www.vtpi.org/d-bvi_com.pdf. 13 H Zhong,D Zaret.Core area territory planning for optimizing driver famil-iarity and route flexibility,US Patent,7,363,126P.Apr.22,2008. 1.2 概念与定义 前面提到移动数据是移动轨迹的集合,而移动轨迹是移动记录的有
22、序序列。移动记录是时间,位置对,可以记录诸如用 GPS设备等连续采样的数据,也可以记录诸如移动社交网络中签到等事件类型的数据。对于GPS设备采集的连续位置信息存在停 留点,用户需要在附近停留一定的时间。因而,停留点是带有位置、到达时间及停留时间信息的点。对于非停留点位置,用户可 能只是路过所以并不感兴趣,因而连续的GPS位置数据通常会被处理成停留点的序列。移动社交网络是移动位置服务和社交媒体 的结合体,是一种与朋友分享地点访问信息的社交平台,可用于帮助人们更加便利、快捷地探索周边环境和配套设施。其中分享 的地点访问信息就是移动社交网络中的签到。在签到时,一般是从兴趣点数据库中选择所访问的兴趣点
23、,加上简短的话语分享感 受。如果有更深刻的感触,还可以分享更加丰富的攻略信息甚至有趣的照片等。兴趣点是带有名字、语义信息的地点,比如餐 馆、酒店、电影院等。诸如大众点评网和Yelp等本地服务平台纷纷兴起,大众点评网可以对地点进行打分和点评,来说明兴趣 地点的好和差。点评信息和攻略信息有些类似,只是攻略信息没有打分。 用户的移动历史信息除了可以表示为一个地点序列以外,还可以被处理为一个用户地点访问的二部图,在二部图中,图的顶 点被分为两个不相交的子集,一个为用户集,一个为地点集。二部图的边只存在于两个子集之间,表示用户访问了某个地点,边 的权重可以表示为访问次数。而子集内的顶点之间,即用户之间和
24、地点之间,则无边相连。假设用户的集合为U=u1, ,uM,地点的集合为L=l1,lN,cu,i则表示用户集中的某一个用户u对地点集中的某一个地点i的访问次数,对应于二部 图中的边权。众所周知,图可以用矩阵来表示,二部图同样也不例外。假设用矩阵C表示这个二部图,每一行对应每一个用户, 每一列表示每一个地点,那么矩阵中的每一个元素cu,i便对应了二部图中的边权。随着城市的发展,可供人们访问的诸如餐馆、 酒店、商场等地点是越来越多了。由于每个用户只会访问很少一部分地点,因此这个矩阵便是稀疏的。 移动社交网络中的社交网络是由顶点和边组成的图结构,顶点是用户,边表示用户之间的关系,比如是否为朋友关系,或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 移动 数据 挖掘 html
链接地址:https://www.31doc.com/p-5518904.html