《方案架构与案例研讨.ppt》由会员分享,可在线阅读,更多相关《方案架构与案例研讨.ppt(50页珍藏版)》请在三一文库上搜索。
1、方案架构与案例研讨,精诚集团提供 Big Data 解决方案的独立品牌 在台北与北京设有研发与专业服务团队 我们关注的不只是技术,更在意挖掘 Big Data 对企业的商业价值 透过软硬件一体的整合,大幅简化与优化企业处理 Big Data 的种种问题,意图与关联充满的 Big Data 世界 Etu 帮您具体整合来呈现,大数据(Big Data)时代来临,Big Data,People,Devices,Sensors,移动互联网 Mobile Internet,物联网 Internet of Things,4,新量级、新处理模式、新企业智能,Big Data 要解决的问题,Volume 海量
2、的数据规模,Variety 多样的数据类型,Value,Velocity 快速的数据流转,巨大的数据价值,6,Social Media,Machine / Sensor,DOC / Media,Web Clickstream,Apps,Call Log,Log,什么是半结构化/非结构化数据,Big Data 带来的挑战,不同“看”数据的方式 需要更高性价比的数据计算与储存方式 不同的数据管理策略 超越企业现有 IT 的数据解决能量,7,不同“看”数据的方式,8,可视:结构化资料 15%,未视:半/非结构化数据 85%,DB/DW,主管们看的 战情数位仪表板,其实是残缺的,10万 GB,10万
3、TB,需要更高性价比的数据计算与储存方式,9,数据库,数据仓库,计算更快 存储更省,10,不同的数据管理策略,当我们想要扩充时, 才发觉: 架构只能 scale-up, scale-out 不易 处理时间过长, time-to-value 受限 成本过高, cost-efficiency 受限,15% 结构化的 DB/DW,遗憾,残缺,每天几百 GB、 几 TB 的资料,且持续成长中,储存 Storing,在收数据的同时做必要的前置处理 (pre-processing) ,并区分数据处理的优先等级 (prioritizing),计算 Processing,如何有效的避免因硬件毁坏所导致的资料损
4、毁,管理 Managing,如何从中挖掘出所关注事件的 pattern 或 behavior,分析 Analyzing,超越企业现有 IT 的数据解决能量,11,大数据的储存与处理/运算,大数据储存,大数据处理,数据分享,数据检索,数据分析,数据展现,分布式软件架构 并行计算框架,分布式存储 横向扩容(Scale-out) 架构,什么是大数据处理 (Big Data Processing),http:/ http:/ http:/.tw/exep/prod/china/chinafile.php?item=CN10816425 http:/.tw/exep/prod/china/chinafi
5、le.php?item=CN10759096 http:/ file : 1.5TB / day,Hit Count,Word Count,什么是大数据处理 (Big Data Processing),http:/ http:/ http:/.tw/exep/prod/china/chinafile.php?item=CN10816425 http:/.tw/exep/prod/china/chinafile.php?item=CN10759096 http:/ http:/ http:/ http:/.tw/?m=index&f=view&p=24hour&s=nlife http:/.tw
6、/?mod=store&func=style_show&SR_NO=DEAO45,177.23.21.50 - - 15/Nov/2011:00:07:45 “GET /flower_store/product.screen?product_id=FL- 10“http:/ rv:1.8.0.10) Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10“ 1025 4463192.168.11.38 -,3rd party pre-defined Reporting,Filter,String Truncation,Log
7、 file : 1.5TB / day,什么是大数据处理 (Big Data Processing),1.1 TB per-day,600 GB per-day,什么是大数据处理 (Big Data Processing),177.23.21.50 - - 15/Nov/2011:00:07:45 “GET /flower_store/product.screen?product_id=FL- 10“http:/ rv:1.8.0.10) Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10“ 1025 4463192.1
8、68.11.38 -,A,B,C,D,X,Y,Z,O,P,Q,A,D,A,C,X,Event Sequence Diagram,RDB data,Event 范例 被浏览的网页 每笔网络交易所经历的每个程序或系统 .,Big Flat File for full text search,什么是大数据处理 (Big Data Processing),Signature,Meta Data,Meta Data,Tag Value,Tag Value,App,App,App,App,Media Extraction,File Transformation,什么是大数据处理 (Big Data Pro
9、cessing),Social Media,Machine & Sensor Data,Media,Web Clickstream,Mobile Apps,Call Log,Splunk,BI/ Reporting,Customized Solutions,Database / Data Warehouse,Etu知意图的大数据解决方案,大数据储存,大数据处理,数据分享,数据检索,数据分析,数据展现,分布式软件架构 并行计算框架,分布式存储 横向扩容(Scale-out) 架构,大数据处理的平台解决方案 企业的资料云 硬件与软件一体 / 储存与运算合一,Big Data 运算与储存,单一架构解
10、决,Etu Appliance,20,传统并行计算架构,并行计算 + 分布式存储,运算,储存,传统储存架构,计算与存储一体,计算向数据靠拢,高效专用存储模式 为程序员屏蔽通性、并发、同步与一致性等问题 任务之间无依赖(share-nothing),具有高系统延展性 (scale-out),Hadoop 的特性,Hadoop 不只是 Hadoop,21,Big Data Applications,SQL,RAW,关系数据库 vs Hadoop,23,连结关系数据库与 Hadoop,汇入与导出数据 Sqoop 查询与整合 Hive JDBC Driver (Java) Hive ODBC Driv
11、er (C+) Hive Add-in for Excel (by Microsoft) Thrift (C/C+, Python, Perl, PHP),Hive 简介,由 Facebook 开发 架构于 Hadoop 之上, 设计用来管理结构化数据的中间件 以 MapReduce 为执行环境 数据储存于HDFS上 Metadata 储存于RDMBS中 Hive的设计原则 采用类SQL语法 扩充性 Types, Functions, Formats, Scripts 性能与平水扩展能力兼具,Hive SQL like Hadoop Database,Driver (compiler, opt
12、imizer, executor),metastore,Data Node,Data Node,Data Node,Data Node,Hadoop Cluster,M/R,M/R,M/R,M/R,Web UI,CLI,JDBC ODBC,Create M/R Job,Sqoop SQL to Hadoop,JDBC,JDBC,JDBC,Map,Map,Map,HDFS/HIVE/HBase,SQL,Create Map Tasks,Sqoop 支援的 RDMBS,Oracle Netezza Teradata SQL Server Microsoft PDW MySql Postgre SQ
13、L,传统的数据处理流程,营运信息,数据仓库,用户浏览日志,大部份删除,ETL部份资料,29,探索式的数据处理流程,广告效益分析 ? 促销活动分析 ? 电子报效益分析 ?,用户浏览日志,营运信息,数据仓库,30,30,Strictly NDA - Microsoft Confidential,Sensors,Devices,Web Log,Crawlers,ERP,CRM,LOB,APPs,Connectors,非结构化数据源,S S RS,SSAS,BI Platform,Familiar End User Tools,PowerView,Excel with PowerPivot,Embed
14、ded BI,Predictive Analytics,结构化数据源,Hadoop,企业的 Hadoop 应用策略,应用一 : 参照 RDBMS 中的数据表,RDBMS,Customers,WebLogs,Products,应用二 : 脱机数据分析,RDBMS,Customers,Products,Sales History,RDBMS,Sales 2008,Sales 2009,Sales 2010,Sales 2008,应用三 : 历史数据与在线数据交互运用,应用四 : 利用 Hadoop 进行数据汇总,RDBMS,WebLogs,WebLog Summary,应用五: 利用 ODBC 连
15、结 Excel & Hive,其他应用 - Etu Recommender 建构在 Etu Appliance 上的精准推荐系统,Etu Recommender,Recommendation Engine,商品/内容 关联性分析,客户行为 相似性分析,客户海量量浏览数据,客户 交易数据,其他或 第三方资料,推荐清单,其他应用 - Etu Recommender 建构在 Etu Appliance 上的精准推荐系统,Web Server,User DB,Product DB,Etu Recommender,商品浏览日志,用户数据,产品目录,推荐结果,API,其他应用 - Etu Recommen
16、der 建构在 Etu Appliance 上的精准推荐系统,Etu Recommender 精准推荐应用系统,个人化推荐清单,个人化EDM,个人化账单,百货,零售,流通,银行,连锁,媒体,虚拟通路 (在线),实体通路 (线下),结账,点击,浏览,搜寻,交易,购物车,推荐清单的运用不光只是在线服务,客户应用案例,需求 上亿个影像图文件 每个影像图文件大小约1020K 须集中管理 需满足图档的实时调阅与查询 现状 以SAN Storage来储存与管理所有的影像图文件 每个影像文件以档案目录方式来管理 以数据库来存放每个图像图文件之特征值 (meta-data)与文件路径, 供使用者查询与搜索,S
17、AN Storage,DB,应用程序,应用程序,应用程序,应用程序,其他应用 海量小图档管理,其他应用 海量小图档管理,SAN Storage,DB,应用程序,应用程序,应用程序,应用程序,大量的查询与搜索造成SAN Storage接口的效能瓶颈, 响应时间太久,数据库对上亿条数据以上的查询效能不佳 无法支持全文搜索 无法支撑大量的关连性计算与分析,传统Storage对储存巨量小档案并不合适 每日新档案的导入响应时间太慢,导入Etu Appliance,运用支巨量资料高平行读写和存储之非关系数据库, 来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈,利用内建分布式文件系统作为提供其高可靠性
18、的底层存储支持,图像文件及 其特征值导入,应用程序,应用程序,应用程序,支持百亿笔资料之高平行查询,其他应用 海量小图档管理,高可靠性 线性扩展(scale-out),轻易快速扩容 总持有成本低,高并发与高吞吐率,处理、查询百亿条数据没有问题 支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析的需求 巨量存储,提供PB级以上储存能立,运用支持海量资料高平行读写和存储之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通所有效能瓶颈,利用内建分布式文件系统作提供其高可靠性的底层存储支持,SAN Storage,DB,应用程序,应用程序,应用程序,其他应用 海量小图档管理,Hadoop 平
19、台竞争要素,Hadoop Disruption Vectors,Source: GigaOM Pro, 2012,整合,部署,存取,延展:公有云等级的运算架构 可靠:电信等级的系统质量 效能:企业等级的创新绩效,Etu Appliance 简介 Big Data End-to-End Solution in a Box,储存与运算一体,简化与优化的优势机种: 10 分钟内可部署 100+ 节点 资料撷取能力 1U 胜过 8U Big Data 运算处理最适化,三种数据温度的整合:Hot / Warm / Cold,Hot Data 在线结构化数据 在线半/非结构化数据,Warm Data 在线
20、半/非结构化数据,Cold Data 脱机资料,Hadoop-based Solution,SAN / NAS / Scale-out NAS,OLTP,OLAP,46,软硬件整合,管理维运功能 全自动化部署 不停机扩充 软硬件全面优化 中央丛集系统管理 中央丛集系统监控 完整的高可用性设计,Etu Appliance 主要功能,47,Master node,Worker node,Worker node,Worker node,Worker node,Switch ( 1Gb above),藉由 Worker Node 容易扩充的能力 可轻易满足数据量成长的需求,最小 package 1 台
21、 Master Node + 2 台 Worker Nodes,Etu Appliance 的部属,Etu Appliance 软件架构,Katta/Lucene,Mahout,HBase,Hive QL,MapReduce,Data Processing Lib,HDFS,Pig,Data Store Layer,Data Processing Layer,Flume,Application Layer,(by SYSTEX),Monitoring,Log Management,Account Management,Configuration Management,Scheduler,High Availability,Search API,Data Source,Hive,Sqoop,Etu OS for Hadoop (by SYSTEX),总结,关系数据库与 Hadoop 的连结是企业导入 Hadoop 的重要关键 Sqoop 及 Hive 提供企业延伸信息管理能力及于非结构化信息 关系数据库与 Hadoop 皆为工具, 更重要的是整体的解决方案 精诚 Etu 团队是您整合 SQL 与 Hadoop 的最佳伙伴,50,技术支持,专业服务,解决方案,面向企业Big Data需求的一站式服务,
链接地址:https://www.31doc.com/p-2833486.html