如何正确找到你想要的数据集成工具.doc
《如何正确找到你想要的数据集成工具.doc》由会员分享,可在线阅读,更多相关《如何正确找到你想要的数据集成工具.doc(7页珍藏版)》请在三一文库上搜索。
1、如何正确找到你想要的数据集成工具如今的数据往往来自多笑眯眯擅、文件系统、数据湖或存储库。为了满足各类业务需求,我们必须将数据与其他数据源的记录系统相集成,从而支持分析、面向客户的应用程序或者内部工作流。而这又带来了新的问题我们该如何选择正确的数据集成工具,从而对各类数据加以归纳?今天的文章将就此展开探讨。数据不在一个数据库,文件系统,数据库或存储库中。为了满足许多业务需求,必须将数据与其他数据源的记录系统集成,然后用于分析,面向客户的应用程序或内部工作流程。例子包括:来自电子商务应用程序的数据与用户分析,客户关系管理中的客户数据以及其他主数据源集成在一起,以建立客户群并定制营销信息。物联网传感
2、器数据与运营和财务数据库中的数据相关联,以控制吞吐量并报告制造过程的质量。员工工作流应用程序,可将跨多个SaaS平台和内部数据源的数据和工具连接到一个易于使用的移动界面。许多组织也对数据科学家,数据分析师和创新团队提出了数据要求,他们在集成内部和外部数据源方面的需求日益增长:开发预测模型的数据科学家通常会加载多种外部数据源,例如计量经济学,天气,人口普查和其他公共数据,然后将其与内部资源融合。试验人工智能的创新团队需要汇总可用于训练和测试算法的大型复杂数据源。业务和数据分析师,特别是曾经在电子表格中执行分析的数据驱动营销部门,现在可能需要更复杂的工具来加载,加入和处理多个数据馈送。1. 数据技
3、术与功能市场规模庞大问题是:用什么工具和做法来整合数据源?什么平台被用来自动化操作数据?正在委托哪些工具供数据科学家和数据分析师在使用新数据源时更加努力?在开发跨多个数据源和API进行交易的应用程序时,有效的开发和开发工具能够实现更快速的应用程序开发?由于许多组织具有不同类型,数量和速度的数据,并随着时间的推移而产生不同的业务需求,因此可能已有不同的方法和工具用于集成数据。很容易坚持这些,并将它们扩展到新的使用案例。虽然使用数据工具的任何人可能比其他人更熟悉一种方法,但对于具有多种业务和用户需求的组织而言,应用一刀切的数据集成方法可能并不是最佳选择。此外,随着越来越多的组织投资于数据解决方案,
4、大数据解决方案有一个健康的市场。结果是现在有许多新的平台和工具来支持数据集成和处理。有了这么多的工具,希望将数据处理作为核心功能的组织应考虑各种工具类型,根据业务和技术需要应用这些工具类型。与数据技术合作或负责数据技术的技术人员应该熟悉可用工具的类型。在这里,我调查了七种主要类型的工具:编程和脚本数据集成传统的提取,转换和加载(ETL)工具数据高速公路SaaS平台面向用户和数据科学家的数据准备工具用于应用程序开发的API和数据集成具有数据集成功能的大数据企业平台AI注入数据集成平台2. 数据集成编程与脚本对于任何具有基本编程技能的人来说,将数据从源文件移动到目标文件的最常见方式是开发一个简短的
5、脚本。这可以在具有存储过程的数据库内完成,作为按预定作业运行的脚本完成,也可以是部署到无服务器体系结构的小型数据处理代码片段。这些脚本通常以几种模式之一运行。它们可以按照预定义的时间表运行,也可以作为由事件触发的服务运行,或者在满足定义的条件时作出响应。他们可以从多个来源获取数据,在将数据传送到目标数据源之前加入,过滤,清理验证和转换数据。脚本是移动数据的快捷方式,但它不被认为是专业级的数据处理方法。要成为生产级的数据处理脚本,它需要自动执行处理和传输数据所需的步骤,并处理多种操作需求。例如,如果脚本正在处理大量数据或快速移动的数据,则可能需要使用Apache Spark或其他并行处理引擎来运
6、行多线程作业。如果输入数据不干净,程序员应该启用异常处理并在不影响数据流的情况下踢出记录。程序员还应该执行重要的计算步骤记录以便于调试。编写脚本来支持这些操作需求并不是微不足道的。它要求开发人员预测数据集成和相应程序可能出现的问题。另外,开发自定义脚本在使用许多实验数据源时可能不具有成本效益。最后,数据集成脚本通常难以完成知识转移知识,并且难以跨多个开发人员进行维护。出于这些原因,具有较大数据集成需求的组织通常会超越编程和脚本数据集成。3. 传统提取、转换与加载(简称ETL)工具自20世纪70年代以来,抽取,转换和加载(ETL)技术已经出现,IBM,InformaTIca,Microsoft,
7、Oracle,Talend等平台在功能,性能和稳定性方面已经成熟。这些平台提供可视化编程工具,让开发人员能够分解并自动执行从源中提取数据,执行转换并将数据推送到目标存储库的步骤。由于它们是可视化的,并将数据流分解为原子步骤,与难以解码的脚本相比,管道更易于管理和增强。另外,ETL平台通常提供操作界面来显示数据管道崩溃的位置并提供重启它们的步骤。多年来,ETL平台增加了许多功能。大多数人可以处理来自数据库,平面文件和Web服务的数据,无论他们是在本地,在云中还是在SaaS数据存储中。它们支持各种数据格式,包括关系数据,XML和JSON等半结构化格式,以及非结构化数据和文档。许多工具都使用Spar
8、k或其他并行处理引擎来并行化作业。企业级ETL平台通常包括数据质量功能,因此数据可以通过规则或模式进行验证,并将异常发送给数据管理员进行解决。一个常见的ETL示例是组织何时将销售前景的新文件加载到CRM中。在加载之前,这些数据源通常需要清理物理和电子邮件地址,这可以通过使用规则和标准数据源进行转换来完成。然后将清理后的记录与CRM中已经存在的记录进行匹配,以便现有记录得到增强,同时添加之前没有的数据并添加新记录。如果ETL很难确定某行是匹配还是新记录,则可以将其标记为要审查的异常。当数据源持续提供新数据并且目标数据存储的数据结构不会频繁更改时,通常会使用ETL平台。这些平台专为开发人员编写ET
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 正确 找到 想要 数据 集成 工具
链接地址:https://www.31doc.com/p-3427961.html