《智能数据时代:企业大数据战略与实战.html.pdf》由会员分享,可在线阅读,更多相关《智能数据时代:企业大数据战略与实战.html.pdf(296页珍藏版)》请在三一文库上搜索。
1、前言 大数据这个概念自诞生以来,已经经历了几次飞跃。时至今日,大数据这个名词频繁地与人工智能、DT、预测等词汇放在 一起,看上去数据的发展已经成为与科技发展甚至整个社会发展平行的存在一切的颠覆都离不开数据。大数据是一种赋能 工具,它的作用是帮助行业加速价值的流通,减少信息不对称,提高交易效率。 市面上大数据行业相关的书籍已经汗牛充栋,然而还没有这样一本书全面地解析大数据、企业和人之间的关系,站在 企业管理者的角度解答如何利用大数据加速发展、攫取更多的价值;更没有人全面告诉企业的管理者,如果想转型以适应当今智 能数据时代,应该储备何种知识和人才。TalkingData作为大数据行业的领军企业,决
2、定写这样一本书。 竞争环境:行业快速发展,传统行业加速转型 根据IDC的数据显示,到2020年,全球大数据技术和服务市场预计将达到589亿美元,其中大数据基础设施占277亿美元, 大数据软件占159亿美元,大数据服务占(包括专业和支持服务)153亿美元。相比于北美等发达地区,中国大数据产业虽然年 轻,但是处于快速发展期。根据DT大数据产业创新研究院(DTiii)的预测,从现在到2025年,大数据产业的经济总量将呈指数 级增长(如下图),覆盖的行业包括政府、金融、电信、交通、工业、能源、房地产、教育、商业服务、医疗、文娱、农业等。 20152025年中国大数据产业增长趋势图 注:数据来源于DT大
3、数据产业创新研究院(DTiii,2016)。 除了飞速发展的整个行业总量之外,大数据行业本身也带有快速颠覆迭代的特征。当今社会,对传统大数据中量的需求已经 很容易达到,大数据的竞争转向了数据质量。那些深入在各种行业情境中、非结构化的、与业务流程直接相关的数据,成为高价 值的数据类型。只有将这部分数据挖掘出来,企业才有可能基于自己的业务进行分析甚至预测。因此,大数据时代进入了一个新 的纪元智能数据时代。 数据和人工智能是智能数据时代的鲜明特征,但是只有数据和人工智能依然不足,还需要人类智慧的参与。数据、人工智能 和人类智慧,成为智能数据时代的三大要素。 数据的积累可以为人类提供更多更细的洞察分析
4、,人类经验得以增强,人类智慧得以增长。比如,通过更多来自于手机的用 户行为分析,企业可以对自己的用户有更多了解,包括他们的生活喜好、消费习惯等,以此产生更多的营销机会。人工智能本身 也需要人类智慧的介入,以引导人工智能的方向,提高人工智能的效率。比如,AlphaGo也需要不断地与人类围棋高手对战, 依靠人类智慧的辅助,才能持续提升棋力。 缺乏人类智慧的持续介入,人工智能对数据的加成作用会随着数据的变化逐步弱化甚至失效;缺乏人工智能,人类无法依靠 自身处理如此复杂而且快速变化的数据;缺乏数据,人工智能无法存在,人类智慧的积累也会放缓。数据、人工智能和人类智慧 互相促进,组成一个正向的循环。比如情
5、景感知领域,基于手机上体现姿态动作的传感器数据,经过人工智能的算法,可以判断 手机用户的动作和姿态(包括走路、骑车、驾驶等)。如果判断不够准确,就需要人工介入,对数据再进行整理和增强、对算法 进行优化,直到结果达到可用的程度。同时,具有情景感知能力的手机,可以给应用开发者提供更多的应用场景和体验,比如运 动健身、金融风控、物流管理、娱乐体验等,相应地也会产生更多的数据这些新的数据让人类智慧更快积累,也让人工智 能更加强大。比如,通过情景感知数据,发现绝大部分用户在使用App的时候手机都是处于手持状态,那么非手持状态的使用场 景是否意味着更大的金融风险? 人工智能和人类智慧,让数据岂止“大”?智
6、能数据时代的三大要素聚合裂变,已经产生难以想象的价值。 现实差距:人才缺口 很多企业在智能数据时代举步维艰,但是也有一些新的企业脱颖而出,利用数据来增强自己的竞争力,在各个领域对传统企 业形成巨大的冲击。据A16Z的2016移动互联网报告,以GAFA(谷歌、亚马逊、Facebook、苹果)为代表的数据巨头,已经在 数据和技术领域建立起牢固的优势,在年收入规模上比Wintel同盟要大3倍。反过来,它们也在通过数据和技术改变传统行业的 形态和模式,包括零售、媒体发行、汽车等。 这些新的数据和技术的先锋具有一些共同的特征:实现了业务数据化和数据资产化,能够用数据来驱动场景化的应用,高效 地探索和转化
7、商业价值。这样的企业,已经拥有数据驱动的文化,我们叫做智能企业(Smart Enterprise): 1.具有灵活的技术平台和数据科学能力,能支撑足够大的数据量级、足够多的数据维度、足够复杂的数据类型、足够灵活的 数据格式、足够低的数据洞察延时等,提高各种数据应用场景的交付效率。 2.具有统一的数据管理策略,以管理跨企业的、一致的数据视图,能高效地汇聚数据(包括自有数据和第三方数据),也能 高效地输出数据和数据服务。 3.具有端到端的数据工程能力,以支撑业务线的可管理的数据运营,形成数据闭环和持续的业务优化。 若要转型为智能企业,人的智慧尤为重要,因此对于无论是大数据企业还是亟待转型的传统企业
8、来说,都提出了人才的类 型、数量和知识结构的严苛挑战。但是一个严酷的现实是,现在的人才储备是远远跟不上行业需求的。从下图我们可以看出,在 搭建大数据平台应用来应对转型的企业所遇到的痛点中,有一半多的原因是卡在了人才不足这个关口上。根据DT大数据产业创 新研究院(DTiii)资料显示,到2025年,中国的大数据人才缺口将高达200万。这不仅仅是在中国,在美国问题同样严重。 McKinsey预测:至2018年,美国将有60%的组织设置首席数据官(CDO),需要400万名具备大数据分析能力的经理和分析 师,人才缺口将达到150万;未来八年将有19%的大数据人才需求增长。 塔建大数据平台应用方式中遇到
9、的主要困难 注:资料来源于CSDN2015年中国软件开发者白皮书。 从上面的数字我们可以看出,仅仅靠大学设立相关学位专业和社会上多开几个专家培训课程是无法弥补如此大的人才缺口 的。智能数据时代大数据人才的培训,需要严谨的知识架构设计、先进的技术工具辅助以及前沿的行业最佳实践的熏陶。这个时 候,仅仅靠学术界和社会培训的努力是不够的,身为一线离炮火最近的组织,大数据企业本身应当积极投入到为社会进行人才建 设和储备的事业中去。 智能数据时代人才的知识架构 在智能数据时代,对于人才的知识储备的要求是综合的。如下图所示,TalkingData认为智能企业所需的人才应当具备行业 领域知识、IT技能和数据科
10、学知识。团队内部的人才组合必须能够合理覆盖这三个知识领域,艰巨的任务才能迎刃而解。 智能企业所需人才的知识结构 TalkingData认为,一家企业如果要向智能企业转型,必须具有以下几种类型的人才: 1.数据架构师。负责制定数据构架管理政策及指南,解决数据管理组织之间的争议问题;制定数据标准、应用标准、运维标 准,设计模型管理流程,整理数据需求并为其他类型的数据人员提供支持。 2.数据工程师。大数据工程解决的是海量数据(起码在T级别以上)的设计、部署、存储和计算需求等方面的问题。在当 今,大数据工程师要设计和部署的系统往往都是消费者和内部工作人员直接使用的应用程序。简而言之,大数据工程涉及系统
11、的 设计、部署和实施。 3.数据分析师/数据科学家。大数据分析则是处理大数据工程师设计的系统上的大量数据,它涉及分析趋势、模式以及开发 各种分类和预测系统。简而言之,大数据分析涉及大数据的高级计算(统计、建模预测等)。 4.数据产品经理。能评估和洞察数据价值、分析问题并快速制定落地策略,基于数据设计商业化逻辑以及关键指标,能灵活 使用各类数据工具并同时熟知项目的流程管理、体系管理、人员激励等。 本书将从一个管理者的视角,从大数据的基本概念开始,循序渐进地介绍相关工具、企业数据工程的主要活动、数据团队建 设以及相关的管理支持。TalkingData的十余位一线员工根据自己所在岗位的经验知识,参与
12、了全书的编写工作,他们是(排名 不分先后):何香萍,马斋,李正伟,杨慧,王俊,何坤,孔元明,姜伟,王福胜,潘松柏,卢健,张学敏,曾晓春,张宁,徐 岷峰,周海鹏,吕博卿。他们不仅贡献了专业的要点知识,也融入了工作中的实战经验,知识点与案例反复穿插,增加了本书的 实践价值。希望通过此书,管理者能够建立起智能企业的定位,业内专业人士能够有更清晰的战略全景和逻辑脉络。 TalkingData,致力于帮助企业转型为数据驱动型企业,用数据的心智去超越未来。 杨慧 2017年4月2日于北京 (TalkingData CEO助理,中国人民大学商学院博士, 香港中文大学管理学系博士后) 第一篇 大数据基础知识
13、第1章 大数据的基本定义 当今社会,有效利用大数据可以让我们拥有压倒性的竞争优势。在本章中,我们将介绍什么是大数据,以及它的几个关键概 念。 大数据究竟是什么?乍一看,这个术语相当模糊,像是一个包含海量信息的词语。尽管这样的描述符合我们心中对大数据这 个概念的设想,但它并没有确切地告诉我们大数据是什么。 通常人们认为大数据就是超大的数据集,对于大数据的管理和分析已经超出了传统数据处理工具的能力。我们借助互联网搜 寻关于大数据概念的一切线索,发现大数据爱好者所推广和分享的大数据概念可以精简如下:大数据界定了一种环境,在这种环 境中数据集可以增长到很大的规模,以至于常规的信息技术不能有效地应对数据
14、集规模的增长。换句话说,数据集已经增长到难 以管理的程度,甚至难以从中获取价值。其中主要的困难就在于对数据的收集、存储、检索、共享、分析以及可视化。 大数据的概念有更多的内涵和外延,不仅包括数据集的规模,还包括数据利用的过程。大数据甚至已成为其他业务概念的同 义词,如商务智能、分析和数据挖掘。 然而,大数据并不是一个新鲜事物。虽然大规模的数据集是在近两年被创造出来的,但是大数据在科学和医学领域早有根 源,这些领域通过分析大规模数据来进行药物研发、物理建模以及其他研究。这就是大数据概念的来龙去脉。 第一篇 大数据基础知识 第1章 大数据的基本定义 当今社会,有效利用大数据可以让我们拥有压倒性的竞
15、争优势。在本章中,我们将介绍什么是大数据,以及它的几个关键概 念。 大数据究竟是什么?乍一看,这个术语相当模糊,像是一个包含海量信息的词语。尽管这样的描述符合我们心中对大数据这 个概念的设想,但它并没有确切地告诉我们大数据是什么。 通常人们认为大数据就是超大的数据集,对于大数据的管理和分析已经超出了传统数据处理工具的能力。我们借助互联网搜 寻关于大数据概念的一切线索,发现大数据爱好者所推广和分享的大数据概念可以精简如下:大数据界定了一种环境,在这种环 境中数据集可以增长到很大的规模,以至于常规的信息技术不能有效地应对数据集规模的增长。换句话说,数据集已经增长到难 以管理的程度,甚至难以从中获取
16、价值。其中主要的困难就在于对数据的收集、存储、检索、共享、分析以及可视化。 大数据的概念有更多的内涵和外延,不仅包括数据集的规模,还包括数据利用的过程。大数据甚至已成为其他业务概念的同 义词,如商务智能、分析和数据挖掘。 然而,大数据并不是一个新鲜事物。虽然大规模的数据集是在近两年被创造出来的,但是大数据在科学和医学领域早有根 源,这些领域通过分析大规模数据来进行药物研发、物理建模以及其他研究。这就是大数据概念的来龙去脉。 1.1 大数据分析的出现 科学家对大数据集进行分析和研究,进而得出研究结论,在这种情况下数据越多、分析研究越多,得出的结果也就越好。研 究人员通过整合相关数据、非结构化数据
17、、历史数据、实时数据,进而产生我们现在所说的大数据。 在商业领域,大数据就意味着商机。根据IBM的报告,人类社会现在每天都能创造出2.51018字节的数据,从而使得世界 上90%的数据都能在过往的两年间被创造出来。这些数据来自社会的方方面面:收集气象信息的传感器、社交网站的帖子、数码 图片、在线视频传输、在线交易记录,以及手机的GPS信号等。它们都是大数据的催化剂,而且伴随着数据分析、算法和其他技 术的进一步使用,所有这些数据的内在价值都能被发掘出来。 大数据在很多领域的重要作用和价值业已被充分证明。例如美国国家海洋气候管理局(NOAA)、美国国家航空航天管理局 (NASA)以及美国的一些制药
18、公司和能源企业等,这些组织自身积累了大量的数据,如今它们每天利用大数据技术从中提取价 值。 美国国家海洋气候管理局运用大数据技术促进气候、生态系统、天气和商业贸易方面的研究,而美国国家航空航天管理局则 将大数据用于航天和其他方面的研究。制药公司和能源企业则利用大数据实现更具体的研究,例如药物测试和地球物理分析。 纽约时报利用大数据进行文本分析和网络信息挖掘,而华特迪士尼公司则将大数据与消费者的行为相关联,进一步理解消费 者在其实体店、主题公园、门户网站的消费行为。 此外,大数据在现代商业领域还另有妙用:大型组织日渐面临着管理大量合法的结构化和非结构化数据的需求,这些数据涉 及从数据库的交易信息
19、到员工微博,从供应商的记录到监督部门的文件。近期的法庭案件倡导企业遵守法律程序,保存好所有文 档、电子邮件信息以及其他电子通信设备的信息,如即时通信信息和互联网通信设备的信息,因为这些信息在企业面临诉讼时可 以用于法庭的电子取证。 1.2 大数据如何发掘价值 提取出有价值的信息总是说起来容易,做起来难。从理念、技术到实践操作,任何一个环节都对我们发掘大数据的内在价值 提出了挑战。 我们可以通过四个维度来思考大数据,这四个维度的内容如下: 1)体量(Volume)。大数据的数据规模很大。企业里处处充满数据,很容易积累起兆级乃至PB级的数据信息。 2)种类(Variety)。除了结构化数据,大数据
20、还包含各种各样的非结构化数据,如文本、音频、视频、点击流量、日志文 件等。 3)真实(Veracity)。从大数据整合而来的大量数据信息会存在一定的统计误差和对信息的曲解。信息的精确性对其价值 至关重要。 4)速度(Velocity)。大数据对于时间是很敏感的,因为在企业中数据是时时流动的,必须使用大数据才能最大化它的商 业价值,但是从中得出的结论也必须要适合于企业的历史数据才行。 4V从四个维度诠释了大数据的价值。然而,大数据的复杂性并不仅限于以上四个维度。在大数据驱动过程中,还存在其他 的影响要素。而这一过程是大数据技术和分析的混合物,它们被用于定义数据资源的价值,而这种价值又可以转化成驱
21、动商业进 步的可操作元素。 这里提及的许多技术和概念并不新奇,而是在大数据的理念下“重新”出现的。最好的办法是划分成类别再进行分析,这些 技术和概念包括以下内容。 传统的商务智能(BI)领域。它包括广泛的商业应用程序以及对数据进行收集、存储、分析和处理的技术。而且BI提供可操 作的信息,它们使用基于事实的支持系统来做出更好的商务决策。BI通过对来自数据库、应用程序以及其他数据资源的数据进行 深度分析而推动其运行。在一些领域中,BI能够提供业务运营的历史、当前和预测性视图。 数据挖掘领域。这是一个从不同角度分析数据并从中挖掘有用信息的过程。数据挖掘通常适用于静态数据或历史数据。它更 关注于预测目
22、的的建模和知识发现,而不是单纯的数据描述,其目的在于从大规模数据集中发现新模型。 统计应用程序。这些程序关注以统计原理为基础的算法,而且通常应用于与民意调查、人口普查相关的数据集以及其他的静 态数据集。这些程序处理的数据理论上以样本观测值为主,用来进行评估、检测和预测分析。经验数据如调查和实验报告的数据 是可分析信息的主要来源。 预测分析。预测分析是数据统计程序中的一类,它主要是对数据库中的信息和趋势进行分析,从而得到预测结论。在金融和 科学领域中预测分析尤为重要,一旦有外部因素加入数据集中,就需要进行新的预测。预测分析的一个主要目的在于识别商业运 作、市场和制造业中的风险与机遇。 数据建模。
23、它是一种假设性的分析应用,其中嵌套着多重的“what-if”语句,通过算法被应用于多个数据集。理想条件 下,建模信息的变动应基于对算法可用的信息,提出对数据集变化的影响的分析。数据建模与数据可视化紧密相依,数据可视化 可以更直观地展示数据。 数据管理(Data Management)。数据管理是指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的 过程。其目的在于充分有效地发挥数据的作用,包括元数据管理、数据结构化、数据安全等内容。 数据工程(Data Engineering)。数据工程是关于数据生产和数据使用的信息系统工程。数据工程建立在大数据背景之 下,是对数据库的建设与管理
24、的工程,其主要内容包括数据资产积累、数据运营过程、数据处理结果和应用、数据时间和咨询 等。 数据科学(Data Science)是研究数据的科学。数据科学利用统计学知识和计算机技术对专业领域的对象实行大数据分析 与挖掘以及其他方式的数据处理,以使组织获取更大的经济效益。数据科学是一个交叉学科,在思想方法上,数据科学研究继承 了统计学的一些思想,例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳,其结论是一种相关性,而并不一定是 某种因果关系。虽然都依赖大量的计算,但数据科学与计算机模拟不同,它并非是基于一个已知的数学模型,而是用大量数据的 相关性取代了因果关系以及严格的理论和模型,并基
25、于这些相关性获得新的“知识”。 以上分析仅仅是大数据先进性和商业价值的一部分。这种价值的存在有赖于人们对竞争优势的永无止境的追求,并鼓励企业 组织采用更大的数据存储库,容纳组织内部和外部的数据,以更好地进行趋势揭示、数据统计、行动决策。这有助于将大数据的 概念、相关工具、平台和分析普及到技术专家和高管中。 1.3 大数据处理的关键数据类型 体量大只是大数据概念的一部分。人们越来越认识到半结构化数据和非结构化数据也是大数据的重要部分,它们往往含有十 分关键的商用信息,因而更加能够满足BI和商业操作的需要。而且我们应该认识到,非结构化的商业数据正在快速增长,并且在 可预见的将来还会继续增长。 数据
26、可以分为以下三类:结构化数据、半结构化数据和非结构化数据。结构化数据通常适用于传统的SQL语言数据库等,其 中数据按照事先定义好的业务规则被写入表中。结构化数据通常被认为是最易处理的数据类型,因为它可以被定义和检索,更易 于访问和过滤。 相比之下,非结构化数据通常没有相应的BI系统与之匹配。它不能被有效地写入表中,也无法被本地应用程序或数据库使 用。非结构化数据的典型代表就是二进制图像文件的集合。 半结构化数据正好处于结构化数据和非结构化数据之间。半结构化数据不能按照数据库中的表和结构化关系进行管理。然 而,它也不同于非结构化数据,半结构化数据拥有标签或其他标记方式,并以此划分数据属性,而且它
27、还提供一套关于数据记录 和域的层级结构,以此来定义数据。 1.4 大数据处理的微妙之处 处理不同类型数据的方式正趋于一致,因为进行数据处理的设备和应用程序都设置了指定的XML格式,以及特殊行业所专 用的XML数据标准(如保险业的ACORD标准、健康医疗产业的HL7标准)。XML技术扩展了大数据分析和集成工具可以处理的 数据类型,但这些技术的转换能力仍然受到数据复杂性和数量的限制,从而使得现有的数据类型转换工具和数据转换的需求不匹 配。因而开启了新类型的通用型数据类型转换工具的大门,新的转换工具能够适用于各种数据类型的转换与融合,而且不用编写 代码,同时还能适用于任何应用程序或者平台架构。 大数
28、据概念的定义和相关分析工具的开发都还处于不断改进的状态,这些应用工具、技术、程序仍在不断演变。然而,这并 不意味着那些要从大数据集中寻求价值的人应该等待。大数据对商业运作来说太重要了,不能采取等待和观望的方法。 真正窍门在于发现能处理多种类型数据的最优方式,同时还能保证满足数据分析过程的目标。最好的做法就是把硬件、软件 和应用程序结合在一起形成一种可管理的程序,从而在有限时间内传递数据结果。 存储也是大数据的关键要素。数据必须存储在一个易于访问且易于维护的地方。这对大多数企业和组织而言需要很高的成 本,因为基于网络的数据存储如SANA和NAS等的购买和管理都很昂贵。 数据存储技术已经发展成为典
29、型数据中心常见的元素之一,因为数据存储技术已经成熟且开始商业化。然而,现代企业不断 变化的需求仍对存储技术施加压力,把BI引入大数据的分析就是一个比较好的佐证。 大数据分析程序需要超出传统存储模式的存储能力。传统的存储技术如SANS、NAS等都无法处理兆级和千兆级的非结构化 数据。因此,大数据分析程序的成功运行需要一种处理大量数据的新方式,以及一种新的数据存储平台理念。 1.5 大数据环境下的处理分析工具 1.Apache Hadoop Apache Hadoop(包括基于它的各种包装,以下通称Hadoop)是一种开源工具,它提供了处理大数据的新平台。虽然 Hadoop已经存在一段时间了,但是
30、越来越多的企业才刚刚开始利用其功能。Hadoop平台旨在解决大量数据造成的问题,特别 是包含复杂结构化数据和非结构化数据的混合数据,这些数据不适合放在表中。Hadoop在需要深度分析和计算量大(如集群和 定位)的情况下运行良好。 对于寻求利用大数据的决策者而言,Hadoop解决了与大数据相关的最常见的问题:以高效的方式存储和访问大量数据。 Hadoop的内在设计允许它作为一个平台运行,它能够在大量的分布式机器上工作。考虑到这一点,很容易看出Hadoop如 何提供额外的价值:网络管理员可以只购买大量的商用服务器,然后安装并在每个服务器上运行Hadoop软件。 Hadoop有助于节省与大规模数据集
31、有关的管理成本。从操作上看,组织的数据都加载在Hadoop平台上,Hadoop软件把 数据分解成可管理的部分,同时把数据扩展到各个服务器上。分布式存储的特性意味着无法在一个地方获取全部的数据。 Hadoop还可以追踪数据的存储位置,而且能够通过创建多个副本来维护数据。这就强化了数据存储的弹性,因为即使某个服务 器掉线或损坏,数据也可以从已知的好的副本自动复制。 Hadoop的优势还表现在处理数据方面。例如,传统的集中式数据库系统存在很多限制,它需要一个连接到服务器级系统的 大磁盘驱动器和具有多个处理器的驱动器。在这种情况下,数据分析就会受限于磁盘性能和处理器的数量。 而在一个Hadoop集群中
32、,每个服务器都可以利用Hadoop的能力在整个集群中传播工作和数据,从而参与数据的处理。换 句话说,索引工作通过向集群中的每个服务器发送代码,各个处理器就会对自己的内容进行检索,然后结果会被统一反馈回来。 这在Hadoop中称为分布式计算,也就是代码或操作被分布到所有处理器上,而最终的结果精简成单一的集合。 Hadoop在处理大规模数据集时表现良好,关键就在于它将数据分散到各个处理器上,而且它能并行运行所有处理器来处理 复杂运算问题。 然而,冒险进入Hadoop的世界并不是一种“即插即用”的体验。为确保成功有一些先决条件:硬件要求和环境配置。首先 要做的就是了解和定义分析过程。大多数首席信息官
33、都对商务分析(BA)和BI的流程相当熟悉,并能将其与最常用的过程层 (提取、转换和加载ETL组件)相联系,这对于构建BA或BI解决方案至关重要。大数据的分析和操作需要企业先选定所要处理的 数据集,整合它们,然后进入ETL程序进行处理。在这里需要处理大量的数据,而且这些数据可能是结构化的、非结构化的,或 者是来自于不同渠道的数据资源,如社交网站、数据日志、门户网站、移动通信设备和传感器等。 要真正实现Hadoop的价值,需要把操作程序和注意事项结合起来(例如一个容错的集群架构,选用最贴合数据的计算方 法,实现对数据集的并行计算或批处理),以及需要一个能够支持数据从存储到分析的企业级平台。 我们应
34、该明白,并非所有的企业都需要用到大数据分析。我们也应该认真思考一下Hadoop的能力和作用。Hadoop并不能 够依靠自身来完成一切,企业在搭建Hadoop平台之前,还要考虑除了Hadoop之外需要什么组件。 例如,企业运行Hadoop平台需要以下组件:数据管理组件HDFS和HBase、程序框架组件MapReduce和OOZIE,开发组 件Pig和Hive,以及开源Pentaho。在这个小型试点项目中并不需要其他太多的硬件设备。其中硬件必需品有:两台多核服务 器、至少24GB的运行内存,以及一个2TB的磁盘。这就足以推动一个小型试点项目运行起来。 Hadoop的有效运行和管理需要一定的专业知识
35、和经验,如果这方面准备不足的话,就需要信息技术管理人员与能够提供全 面技术支持的服务供应商进行合作。这方面的专业知识对于项目安全尤为重要。Hadoop、HDFS、HBase组件也需要安全防 护。换句话说,进入Hadoop程序的数据仍然需要保护,以免丢失。 整体来看,Hadoop平台是对企业大数据分析实力进行检测的关键。而在完成检测之后,如何解决平台上大量的服务器托管 问题,也就成为大数据领域所要继续探索的内容了。 2.SmartDP Hadoop是数据挖掘的重要工具,但是它的使用对象是一线的数据挖掘者。对非数据分析企业而言,想要利用Hadoop等开 源软件构筑自身完整的数据分析体系比较复杂,一
36、方面是因为相关数据的缺失,另一方面则是因为搭建完善的数据分析体系并不 容易。此外由于聘请高级专家的成本过高,许多公司更乐意引进数据分析工具。诸如SmartDP之类具有“自助服务”能力的大 数据分析软件的出现,为企业跨越数据鸿沟提供了一个新方式。 SmartDP是基于智能数据应用探索商业价值的平台,它具有数据管理、数据工程和数据科学的能力,这三大能力是对数据 分析平台最基础也是最重要的要求。 在数据管理方面,SmartDP为企业提供了元数据管理、数据存储、数据治理、数据清洗、数据质量管理、人员权限管理与 数据安全维护。数据的存储与管理是企业数据运用的基础,SmartDP不仅能够协助企业进行一方数
37、据的管理,还能充当数据的 连接器,打通数据平台和数据市场,拓展企业所需的第三方数据,为企业深度挖掘商业价值提供丰富的数据环境。 在数据工程方面,SmartDP提供了多方数据接入、数据整合、数据运营、应用接入、数据分析、数据可视化呈现、数据结 论和执行建议。内外部的数据整合为企业数据价值挖掘提供了丰富的原材料,但原材料只有经过恰当的数据处理才能转化为价 值。SmartDP的特点在于帮助用户快速实现各类操作,找到最佳的数据价值挖掘方式。 图1-1 以SmartDP为例的数据工程应用 数据科学是企业数据运用的重点与核心,SmartDP为没有数据管理平台和处理能力的用户提供了处理数据的平台与应用。 S
38、martDP支持算法开发、算法接入、算法组合与算法自动调整(机器学习)。人工智能与开源算法的引进,为企业的数据应用 与分析提供了多样性的选择与多水平的应用,满足不同企业、不同层次的需求。 从企业内部数据的产生到产品落地后产生的效果,SmartDP打通了企业数据的全链条,缩短了产业的价值链与决策链,许 多之前必须通过外包才能解决的问题,现在可以利用内部数据分析平台完成决策,为企业提供直接可操作的结果。 从具体的产品形态看,目前SmartDP以DMP为基础,整合一方与三方数据,提供了如数据管家、用户管家、脉策、酷屏、 人际地图等一系列产品应用。数据管家完成了数据的管理,从业务源头开始,对企业内外部
39、的数据进行梳理与整合;脉策结合用 户线上使用行为与线下活动轨迹,为房地产厂商提供最优的选址,帮助企业进行决策;酷屏能为企业提供简洁清晰的可视化图 像,为用户提供直观展示;人际地图从用户的职、住、娱三个层面挖掘用户的行为轨迹,分析用户的消费水平与偏好,为企业营 销提供最直接的决策推荐信息。而这些都只是SmartDP中的部分功能,外部算法与应用的接入意味着SmartDP能够实现更丰富 的功能。 1.6 智能数据时代到来 智能数据就是有效融合了人工智能和人类智慧的数据,这样的数据才能持续产生商业价值。这个名词的出现揭示了数据、人 和机器三者之间的有机联系。这种有机联系赋予数据更多价值,更赋予数据心智
40、。现阶段的“数据”与以往的数据已经有很大不 同。数据中包含的信息量越来越大、维度越来越多,从图像、声音等富媒体数据,逐渐过渡到人的动作、姿态、行为轨迹,再加 上地理位置、天气、社会群体行为等,以往处理数据的思路已经难以适应“数据”本身发展的速度。一个融合人类智慧、人工智 能以及海量非结构化数据的智能数据时代已经来临。因此,“发展多年的大数据即将进入下半场”。 智能数据时代最重要的三个要素是:数据、人工智能、人类智慧。这三者之间的关系又是什么?我们可以做个比喻。数据相 当于什么?人的血液。人工智能相当于什么?人的心脏。心脏需要靠血液供给,但同时它还会根据人的心跳把血液再输回给人 体,从此往复循环
41、,形成一个正循环。人类智慧是什么?大脑,这是不可替代的。所有这一切构成了智能数据时代的三个要素。 数据的积累,推动了人工智能的进步(数据量越大,训练出来的人工智能越强大)和人类智慧的积累(通过对数据的洞察和分 析,人类经验得以增强,智慧得以积累),从而产生了更多的应用场景;应用场景的增加,导致数据在量级和维度上进一步变 化,人工智能不一定能够处理所有的变化,所以需要人类智慧的介入,调整人工智能以适应新的数据处理方式,从而使人工智能 得以进步,并且也进一步积累了人类智慧这是一个正向的循环。数据、人工智能和人类智慧相互促进,迎来了新的智能数 据时代。 缺乏人类智慧的持续介入,人工智能对数据的加成作
42、用会随着数据的变化逐步弱化甚至失效;缺乏人工智能,人类无法处理 如此海量的数据;缺乏数据,人工智能无法存在,人类智慧的积累也会放缓。比如通过人的有监督的训练,可以获得体现人姿态 动作的手机传感器的训练数据集,这是体现人类智慧的数据。这些数据通过人工智能的算法分析,然后经过人类智慧的参数调整 和验证,可以趋近反映人的真实动作和姿态,实现情景感知能力。具有情景感知能力的手机,可以提供给应用开发者更多的应用 场景,比如运动健身、金融风控、物流管理、娱乐体验等,每个领域出现的新的用户体验,也会产生更多的数据,让人类智慧继 续积累,让人工智能更加强大。又比如,原始数据进入SmartDP以后,需要经过数据
43、架构师的人类智慧的分析和整理,通过人 工智能的辅助,才能得到干净的或者建模的(比如图)数据。这些数据在使用的时候也必须结合人类智慧和人工智能。如果原始 数据没有经过运营,垃圾进垃圾出,就不是智能数据。甚至数据还需要持续的运营,如果运营中断,有可能就慢慢地不智能了 (过期了)。再比如在行业领域,我们通过咨询(人类智慧,积累了行业的经验)帮助客户梳理数据的脉络,采集必要的数据, 再通过人工智能来满足业务需求,解决场景化的问题,同时又产生更多的数据。 第2章 数据的艺术 2.1 评估可能性的艺术 害怕落后是向前发展的强大动力。在今天,很多组织都致力于构建大数据和物联网,仅仅因为他们担心自己的竞争对手
44、已经 开始进行这项工作。利用差异化解决方案进入市场,吸引风险资本家的投资,是这些公司的共同目标。很多公司创业失败了,但 是有些公司却在新兴市场中发展起来,甚至对部分成熟公司构成威胁。而成熟公司的CEO和高层们没有忘记在早期的市场上利 用新型解决方案获得的巨大利益。 许多这样的组织开始把发展的核心集中到事实问题而不是过去的经验以及直觉方面。数据开始成为企业发展的关键,同时, 从数据中得到的信息也被人们认为是关键性的东西。上述组织必须具备对所发生的事进行反思并评估的能力,而在评估一项新的 选择或者决策的潜在影响时,数据分析能力变得越来越重要。 从表面来看,大数据应该帮助组织机构判断未来的发展方向。
45、毕竟,更多的数据种类和更大的数据容量会有助于揭露新的真 相,有很多公司高管也乐于相信这种价值。而且物联网似乎也开拓了新的业务可能,不仅可以用来作为对抗传统竞争者的方法, 也可以应用于同质市场的新战略的开发。 因此,许多IT组织的任务是制定一个使用大数据开发新解决方案的战略,这将对业务产生重要影响。由于相似的原因,物联 网也受到了同样高度的关注。如果想要确定这些举措是否有价值,常见的首要方法就是找一家在相同行业的其他公司中发生的精 彩实例。另一个方法就是去查阅大量各种各样的数据,并期待好运降临,从而直接尝试得到有重要价值的意外业务发现。然而, 对于通过分析数据(包括来自传感器、社交媒体、网站和其
46、他流式数据源的数据)可能解决的业务问题,这些方法很少能在没有 假设的情况下工作。 为了发展这种假说,你的公司或组织里也许应该组织一场远景规划的会议。无疑,IT的高管、企业构架师、IT架构师们会对 未来IT的发展方向有着自己的观点,也充分认识到大数据和物联网的巨大潜力。然而,这些大家都想要的用例更可能只是存在于 企业家们的心里。巧合的是,他们或许也会对这些项目支付预算。 在本节中,我们描述了如何探索在以后的信息构建中可能出现的东西,并且通过评估“可能的艺术”来推动未来项目的发 展。当你的组织中举办过这样的会议时,也许会发现许多有潜力的项目。而且本节所概述的技巧,也会让你对这种项目的可行性 形成一
47、种可靠的预测评估。因此,你就能够将精力集中到能得到应有支持且会促进业务发展的项目上了。 图2-1强调了在我们的方法中现在所处的阶段,以及本节所涉及的内容。在远景规划会议中讨论的内容应该包括现在和未来 的业务构建、数据构建、应用构建和技术构建。考虑到这只是探索过程的开始,一旦我们具备了洞察力,并确信有值得探求的项 目,就会有很多后续的阶段。 图2-1 合理想象的艺术阶段 第2章 数据的艺术 2.1 评估可能性的艺术 害怕落后是向前发展的强大动力。在今天,很多组织都致力于构建大数据和物联网,仅仅因为他们担心自己的竞争对手已经 开始进行这项工作。利用差异化解决方案进入市场,吸引风险资本家的投资,是这
48、些公司的共同目标。很多公司创业失败了,但 是有些公司却在新兴市场中发展起来,甚至对部分成熟公司构成威胁。而成熟公司的CEO和高层们没有忘记在早期的市场上利 用新型解决方案获得的巨大利益。 许多这样的组织开始把发展的核心集中到事实问题而不是过去的经验以及直觉方面。数据开始成为企业发展的关键,同时, 从数据中得到的信息也被人们认为是关键性的东西。上述组织必须具备对所发生的事进行反思并评估的能力,而在评估一项新的 选择或者决策的潜在影响时,数据分析能力变得越来越重要。 从表面来看,大数据应该帮助组织机构判断未来的发展方向。毕竟,更多的数据种类和更大的数据容量会有助于揭露新的真 相,有很多公司高管也乐
49、于相信这种价值。而且物联网似乎也开拓了新的业务可能,不仅可以用来作为对抗传统竞争者的方法, 也可以应用于同质市场的新战略的开发。 因此,许多IT组织的任务是制定一个使用大数据开发新解决方案的战略,这将对业务产生重要影响。由于相似的原因,物联 网也受到了同样高度的关注。如果想要确定这些举措是否有价值,常见的首要方法就是找一家在相同行业的其他公司中发生的精 彩实例。另一个方法就是去查阅大量各种各样的数据,并期待好运降临,从而直接尝试得到有重要价值的意外业务发现。然而, 对于通过分析数据(包括来自传感器、社交媒体、网站和其他流式数据源的数据)可能解决的业务问题,这些方法很少能在没有 假设的情况下工作。 为了发展这种假说,你的公司或组织里也许应该组织一场远景规划的会议。无疑,IT的高管、企业构架师、IT架构师们会对 未来IT的发展方向有着自己的观点,也充分认识到大数据和物联网的巨大潜力。然而,这些大家都想要的用例更可能只是存在于 企业家们的心里。巧合的是,他们或许也会对这些项目支付预算。 在本节中,我们描述了如何探索在以后的信息构建中可能出现的东西,并且通过评估“可能的艺术”来推动未来项目的发 展。当你的组织中举办过这样的会议时,也许会发现许多有潜力的项目。而且本节所概述的技巧,也会让你对这种项目的可行性 形成一种可靠的预测评估。因此,你就能够
链接地址:https://www.31doc.com/p-5518892.html