“产业大脑”数据仓建设指南_地方标准格式审查稿.docx
《“产业大脑”数据仓建设指南_地方标准格式审查稿.docx》由会员分享,可在线阅读,更多相关《“产业大脑”数据仓建设指南_地方标准格式审查稿.docx(15页珍藏版)》请在三一文库上搜索。
1、ICS35.240CCSL6711B37山东省地方标准DB37TXXXXXXXX“产业大脑”数据仓建设指南Constructionguidelinesforthedatawarehouseofthe11industrybrain11XXXX-XX-XX发布XXXX-XX-XX实施山东省市场监督管理局发布目次前言II1范围12规范性引用文件13术语和定义14基本原则14.1 需求牵引14.2 场景赋能14.3 安全合规25总体架构26数据来源36.1 公共数据36.2 企业数据36.3 其他数据37数据能力层37.1 数据采集37.2 数据资源编目37.3 数据治理47.4 数据融合分析47.5
2、 数据存储47.6 数据共享交换57.7 数据质量管理58数据服务层68.1基础库68.2行业库78.3场景库78.4数据服务89数据仓对接810安全保障810.1安全管理810.2安全技术810.3安全运营9附录A(资料性)场景库建设示例(企业服务信息)10A.1企业服务信息10A.2基础数据表10本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省工业和信息化厅提出、归口并组织实施。“产业大脑”数据仓建设指南1范围本文件确立了“产业大脑”数据仓建设的基本原则,
3、提供了总体架构、数据来源、数据能力层、数据服务层、数据仓对接、安全保障等方面的指导。本文件适用于指导各行业“产业大脑”数据仓的规划和建设。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T22239GB/T35273GB/T39786GB/T43697信息安全技术信息安全技术信息安全技术数据安全技术网络安全等级保护基本要求个人信息安全规范信息系统密码应用基本要求数据分类分级规则DB37/T4646.2公共数据数据治理规范第2部分:数据清洗
4、比对3术语和定义下列术语和定义适用于本文件。3. 1数据治理datagovernance对数据进行处置、格式化和规范化的过程。注1:数据治理是数据和数据系统管理的基本要素。注2:数据治理涉及数据全生命周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。来源:GB/T352952017,2.1,433.2数据标准datastandard数据的命名、定义、结构和取值范围方面的规则和基准。来源:GB/T363442018,2.84基本原则4.1 需求牵引“产业大脑”数据仓建设宜以产业发展需求为牵引,推动公共数据、企业数据、其他数据等多方数据汇聚。4.2 场景赋能宜通过规范“产业大脑”数据仓数
5、据米集、编目、治理、融合分析、存储、共享交换和质量管理,以知识、规则、模型、算法等方式赋能产业服务和场景。4.3 安全合规宜采取措施保护“产业大脑”数据仓中数据不被非法访问、修改或删除。5总体架构“产业大脑”数据仓宜整合产业相关数据,实现产业数据的采集、编目、治理、融合分析、存储、共享交换和质量管理,是“产业大脑”的核心组成部分和数据底座。“产业大脑”数据仓宜包括数据能力层、数据服务层、安全保障,“产业大脑”数据仓架构见图1。a)数据能力层:作为支撑产业数据处理的核心层,宜具备数据资源采集、编目、治理、融合分析、存储、共享交换和质量管理等能力。b)数据服务层:官通过对数据仓汇聚的原始数据进行数
6、据治理、融合,构建形成基础库、行业库和场景库,同时汇聚各类知识、规则、模型、算法,为各类场景应用提供服务支撑。c)安全保障:宜为数据仓提供安全管理、安全技术和安全运营等支撑。应用支撑TT政府侧场景应用行业侧场景应用Tr“产业大脑”数据仓模型算法基础库行业库数据服务层企业基本I信意一经营风险LjtiLJ产业发展L信息一产业图谱一信息一上游企业J信息一科技创新.信息一精准招商J信息、J企业迁移-信息一知识规则场景库企业采购信息L企业服信息工信息J生产设、备信息一质量控-制信息二环境与合规信:运输与|物流信三安全保障数据来源公共数据企业数据其他数据数据采集数据资源编目数据治理数据融合分析数据能力层数
7、据存储数据共享交换数据质量管理图1“产业大脑”数据仓架构6.1 公共数据6.1.1 宜通过省一体化大数据平台,根据业务需求申请政府侧相关产业基础数据,包括但不限于企业基础数据、公共资源交易数据、科技创新数据、金融综合服务数据、政策人才数据。6.1.2 企业基础数据宜包括但不限于企业的登记信息、存续状态数据。6.1.3 公共资源交易数据宜包括但不限于公共资源交易平台上的交易数据,如政府采购、土地拍卖、工程招投标数据。6.1.4 科技创新数据宜包括但不限于科技创新项目申报、科研成果、专利申请和授权数据。6.1.5 金融综合服务数据宜包括但不限于信贷记录、融资情况、保险业务数据。6.1.6 政策人才
8、数据宜包括但不限于税收政策、环保政策、贸易政策、鼓励性政策、行业规范、限制性措施、人才基本信息数据。6.2 企业数据6.2.1 2.1宜通过产业链上下游企业许可范围内的合规数据共享交换获得企业运营、供应链等数据。6.2.2 企业运营数据宜包括但不限于以下内容。a)企业资源计划数据:物料需求计划、库存状态、生产计划、财务信息、人力资源数据。b)客户关系管理数据:企业的客户信息、销售记录、售后服务数据。c)制造执行数据:生产计划调度、生产进度跟踪、质量控制数据。6.2.3 供应链数据宜包括但不限于以下内容。a)供应链上下游企业数据:供应商的生产能力、质量水平、交货周期数据。b)商品贸易和流通环节数
9、据:进出口贸易数据、物流运输数据。c)链主企业的招投标数据。6.2.4 企业的其他数据宜包括但不限于知识产权、标准、企业认证和资质数据。6.3 其他数据宜通过互联网及其他资源渠道搜集获取电信运营商、行业协会、研究机构等第三方行业数据,包括但不限于互联网的新闻资讯、社交媒体信息、产品市场信息、行业从业机构信息,以及行业研究机构、咨询公司等提供的市场分析报告、行业研究报告。7数据能力层7.1 数据采集7.1.1 “产业大脑”数据仓宜具备数据采集能力,支持多源数据采集,包括物联网设备、社交媒体、交易系统等,并实施自动化数据采集流程,支撑数据的高效集成。7.1.2 数据采集能力宜包括数据源管理、数据抽
10、取、数据转换、采集任务调度、元数据管理、采集监控等。7.2 数据资源编目7.2.1 “产业大脑”数据仓宜具备数据资源编目能力,实现数据资源的统一编目和管理,为“产业大脑”、各业务系统提供数据资源清单。7.2.2 数据资源编目能力宜包括数据资源目录编制、数据资源审核发布、数据资源挂载、数据资源目录查询、数据资源目录变更、数据资源停用等。7.2.3 数据资源目录内容宜包括但不限于数据资源名称、数据资源代码、数据资源提供方、数据资源分类、行业分类、行业代码、行业内企业共享属性、跨行业企业共享属性、数据安全级别、开放属性、数据资源格式和类型、更新频率、发布日期、数据资源摘要。7.3 数据治理7.3.1
11、 “产业大脑”数据仓宜具备数据治理能力,建立各行业数据治理规范,包括元数据标准、数据清洗比对标准等,对行业数据进行标准化和清洗比对。7.3.2 数据标准化宜具备标准创建、标准修改、标准删除、标准查询、标准详情查看、标准导入导出、标准质量检查、标准版本管理、标准模板管理、标准变更订阅等能力;数据标准信息包括但不限于数据标准代码、数据标准名称、数据标准类型、长度、精度、数据标准描述。7.3.3 数据清洗比对宜具备清洗比对规则自定义与配置、数据过滤、数据比对、数据去重、数据补全、数据转化、数据降维、清洗任务管理等能力;清洗比对规则包括但不限于特定字符转换、大小写转换、汉语转拼音、同义词替换、规则校验
12、数据清洗比对宜参照DB37/T4646.2o7.4 数据融合分析7.4.1 “产业大脑”数据仓宜具备数据融合分析能力,通过数据模型管理、数据血缘分析、数据标签管理、数据融合分析,开发逻辑模型、物理模型,形成基础库、行业库和场景库,提供数据服务。7.4.2 4.2数据模型管理宜提供以逻辑模型创建物理模型能力,使物理模型继承逻辑模型定义的数据结构、约束和数据关系等。逻辑模型宜支持按照业务拆分主题域,并进行主题域内的数据逻辑结构、约束和数据关系设计,实现业务模型定义;物理模型宜包含模型物化和模型加工两部分能力,模型物化宜创建物理模型定义的表结构,模型加工宜在线定义模型的加工逻辑,并支持垂直拆分、水
13、平拆分、多表联合、多表连接或自定义映射等方式。7.4.3 数据血缘分析宜提供数据血缘分析和展示能力,支持数据源库到目标数据库之间流向查看,库级、表级和字段级血缘分析,数据血缘信息展示;基于数据血缘信息,宜提供溯源分析、影响分析、关联程度分析和数据时效性分析等元数据应用分析能力;支持数据流动趋势、数据库间依赖关系和数量的展示。7.4.4 数据标签管理宜提供数据标签体系建设和管理能力,开展数据标签规则建立、标签开发、标签生命周期管理,形成数据标签库,提供数据分类标注和分级标注等服务,数据标签宜具备标签地图、标签申请、标签数据预览、标签元数据查询、标签应用等,支持指标统计分析、标签的开发与运维、标签
14、使用情况监测。7.4.5 数据融合分析能力宜提供跨数据源的数据分析、融合和提取,形成面向业务和应用的数据集;支持基础统计分析、数据挖掘算法应用、多维分析等能力。7.5 数据存储7.5.1 “产业大脑”数据仓宜支持存储结构化数据、半结构化数据、非结构化数据等。7.5.2 宜采用不同的存储方式存储数据仓不同类型的数据,存储方式包括但不限于以下方式。a)传统关系型数据库:存储结构化数据,适用于少量存储数据,提供事务支持、数据一致性和完整性保障。b)分布式关系型数据库:存储结构化数据,适用于处理大规模的数据集,并提供高性能的查询能力。c)列式关系型数据库:存储结构化数据,适用于大规模数据的OLAP场景
15、d)时序数据库:存储结构化数据,适用于存储物联网传感器数据、金融市场数据、应用性能监控等数据。e)文档数据库:存储半结构化数据,适用于以文档作为数据存储和操作基本单元的场景。f)分布式文件系统:存储非结构化数据,适用于以文件形式分散存储在多台独立服务器的场景;g)对象存储:存储非结构化数据,适用于云计算环境。7.5.3 宜制定数据备份策略,确保数据的备份频率、备份方式、备份介质等符合业务需求。备份策略包括但不限于全量备份、增量备份、差异备份。7.5.4 宜制定数据恢复策略,确保在数据丢失或损坏的情况下能够快速恢复数据。恢复策略包括但不限于全量恢复、增量恢复、差异恢复。7.6 数据共享交换7.
16、6.1“产业大脑”数据仓宜根据数据的时效性、数据量等情况确定数据共享交换方式,数据共享交换方式包括但不限于以下方式。a)数据库表方式:数据供给方将“产业大脑”数据仓中的数据推送到共享数据库中,数据需求方从共享数据库中获取数据,适用于数据时效性较低、共享交换的数据量较大的情况,主要能力包括数据源管理、数据字段映射、数据字段预处理、数据推送。b)接口方式:数据供给方通过接口方式提供共享数据,适用于数据时效性较高、共享交换的数据量不大的情况,主要能力包括接口注册、接口代理、接口鉴权、接口流控。c)文件方式:数据供给方将数据以文件为载体共享给数据需求方的方式,适用于数据时效性较低、数据对接双方隔离性较
17、高的情况,主要能力包括文件源管理、文件清单管理、文件下载、文件上传。d)标识解析方式:数据供给方将数据仓数据在工业互联网标识解析二级节点注册,通过标识映射数据仓IP地址,数据需求方通过标识解析实时获取数据。e)区块链方式:利用区块链技术的分布式、不可篡改和加密特性,实现数据的安全共享交换,如交易信息、税务信息等,适用于数据时效性较低、共享交换的数据量较少、安全性较高的情况。7.6.2宜采用同步机制来确保“产业大脑”数据仓数据的一致性、完整性,同步机制包括但不限于以下内容。a)全量同步:每次同步都会将所有数据都同步到目标端,适用于数据量不大、完整性较高、数据更新不可控的情况。b)增量同步:只同步
18、自上次同步以来发生变化的数据,适用于时效性较高、同步效率较高、资源占用较低的情况。c)比对同步:比较源端和目标端之间的数据差异,然后将差异数据同步到目标端,适用于数据量较大、时效性较低、数据更新不可控的情况。7. 6.3宜采用的数据同步方式包括但不限于实时同步、周期性同步、条件触发同步。7.7数据质量管理7. 7.1“产业大脑”数据仓宜建设数据质量管理能力,包括但不限于数据规则管理、数据质量检查、数据质量分析评价、数据质量报告生成、问题数据工单管理、数据质量监控与改进能力。8. 7.2宜根据行业数据实际情况,制定数据质量管理流程,包括但不限于:a)数据采集阶段,制定数据采集规范和验证规则;b)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 产业 大脑 数据 建设 指南 地方 标准 格式 审查
