贵州省大数据清洗加工规范.docx
《贵州省大数据清洗加工规范.docx》由会员分享,可在线阅读,更多相关《贵州省大数据清洗加工规范.docx(28页珍藏版)》请在三一文库上搜索。
1、贵州省大数据清洗加工规范Big Data Cleaning Specifications for Guizhou贵州省大数据发展管理局2017年6月目录1范围22规范性引用文件23术语和定义34数据清洗流程与原则54.1政务数据来源54.2数据质量问题与数据清洗的关系54.3 数据清洗流程64.4 数据清洗加工原則84. 4. 1 方法一致性84. 4.2数据可信性84. 4.3数据可用性85数据清洗流程控制85.1教据预处理105.1.1教据抽取105.1.2敷据过滤105.1.3数据转換105.1.4敷据加载115.2数据清洗115. 2.1敷据清洗规则115. 2.2 脏数据处理125.
2、3非需求数据处理176数据清洗质量控制186.1数据潰洗质量评估要求186.2数据潰洗质量评估指标187数据清洗过程管理197.1数据清洗角色定义197.2提供者管理要束207.3管理者管理要求207.4敷据审核管理要求207.5教据更新总体原则217.6敷据矫正处理要束217.7敷据潰洗服务管理要求21附表23业务数据转换规则示例表23序言本规范按照GB/T 1. 1-2009标准化工作导则第1部分:标准 的结构和编写给岀的规则起草。本规范由贵州省大数据发展管理局提岀并归口。本规范起草单位:贵州中软云上数据技术服务有限公司、云上贵 州大数据产业发展有限公司、上海贝格数据服务有限公司。本规范主
3、要起草人:郝达治、王文容、李慧杰、李毅、黄奕超、 韦德贵、唐俊、田沥、朱浩。1贵州省大数据清洗加工规范1范围本规范定义了大数据清洗加工的标准方法,为贵州省各级政府 部门之间共享交换的数据的清洗加工提供方法指导。本规范适用于贵州全省范围内政务大数据应用主管单位、设计 单位、建设单位、实施单位及评估单位等,用于指导政府数据的清 洗加工工作。贵州省大数据应用建设过程中的数据清洗工作,除了执行本规 范外,还需符合国家现行有关技术要求、规范和标准。2规范性引用文件下列文件对于本规范的应用是必不可少的。凡是标注日期的引 用文件,仅所注日期的版本适用于本规范。凡是未注日期的引用文 件,其最新版本(包括所有的
4、修改单)适用于本规范。GB/T 1. 1-2009标准化工作导则第1部分:标准的结构和 编写DB 52/T 1123-2016政府数据数据分类分级指南DB 52/T 1124-2016政府数据资源目录 第1部分:元数据描述规范DB 52/T 1125-2016政府数据资源目录 第2部分:编制工作 指南DB 52/T 1126-2016政府数据数据脱敏工作指南3术语和定义下列术语和定义适用于本规范。3. 1 数据采集 data acquisition数据采集是指对数据资源进行收集并形成原始记录的过程。3.2 大数据 big data一种规模大到在获取、存储、管理、分析方面超出了传统数据 库软件工
5、具能力范围的数据集合,具有海量的数据规模、快速的数 据流转、多样的数据类型和价值密度低四大特征。3. 3 脏数据 dirty data脏数据是指系统中的数据不在给定的范围内或对于实际业务毫 无意义,或是数据格式非法,以及在系统中存在不规范的编码和含 糊的业务逻辑。3. 4 数据清洗 data cleaning数据清洗是指利用现有的数据挖掘手段和方法清洗“脏数据”, 将“脏数据”转化为满足数据质量要求或应用要求的数据的过程。 它是发现并纠正数据文件中可识别的错误的一道重要程序。3. 5 结构化数据 structural data结构化数据也称作行数据,是由二维表结构来逻辑表达和实现 的数据,严格
6、地遵循数据格式与长度规范,主要通过关系型数据库 进行存储和管理。3. 6 非结构化数据 unstructured data非结构化数据是数据结构不规则或不完整,没有预定义的数据 模型,不方便用数据库二维逻辑表来表现的数据。3. 7 半结构化数据 semi-structured data非结构化数据处于结构化数据与非结构化数据之间,具有一定 的结构,但是缺乏由底层数据模型规定的严格结构。3. 8 数据规范 data specifications对数据标准、数据模型、业务规则、元数据和参考数据进行有 关存在性、完整性、质量及归档的测量标准。3. 9 数据完整性准则 data integrity f
7、undamenta I s对数据进行有关存在性、有效性、结构、内容及其他基本数据 特征的测量标准。3. 10 数据覆盖 data coverage相对于数据总体或全体相关对象数据的可用性和全面性的测量 标准。3. 11 表达质量 presentation qua I ity如何进行有效信息表达以及如何从用户中收集信息的测量标 准。3. 12 数据衰变 data decay对数据负面变化率的测量标准。4数据清洗流程与原则4.1政务数据来源政务数据资源是指政务部门在履行职责过程中制作或获取的, 以一定形式记录、保存的文件、资料、图表和数据等各类数据资 源,包括政务部门直接或通过第三方依法采集的、依
8、法授权管理的 和因履行职责需要依托政务信息系统形成的数据资源等。政务数据不仅有传统的结构化数据,还包含大量的非结构化数 据。进行数据清洗前,需将大量非结构化数据转换为结构化数据。 在非结构化数据转化为结构化数据的过程中,可以将其利用提取特 征值等方法转化为半结构化数据,最后通过技术手段转化为结构化 数据。4-2数据质量问题与数据清洗的关系警照完整性图1数据质量问题分类图5数据质量主要针对单数据源数据和多数据源数据两方面,两种 类型数据都由实例层数据和模式层数据组成。数据清洗技术是解决 数据质量问题的一种有效方法,可以检测和修正实例层的脏数据。 但是数据清洗技术无法全面地解决数据质量问题中模式层
9、的脏数 据,必须借助数据整合技术。4.3数据清洗流程数据清洗总体流程如下:否图2数据清洗总体流程图数据清洗的方法包括:缺失数据处理、相似重复对象监测、异 常数据处理、逻辑错误监测、数据不一致性监测等。用不同方法清 洗的数据,对后续挖掘应用工作会产生不同的影响。4.4数据清洗加工原则4- 4. 1方法一致性数据资源清洗加工工作应统一决策,同一数据库范围内工作方 法、技术指标均应当统一,从而达成数据产品的一致性。4. 4.2数据可信性数据可信性包括精确性、完整性、一致性、有效性、唯一性。精确性:描述数据是否与其对应的客观实体的特征相一致。完整性:描述数据是否存在缺失记录或缺失字段。一致性:描述同一
10、实体的同一属性的值在不同的系统是否一 致。有效性:描述数据是否满足用户定义的条件或在一定的域值范 围内。唯一性:描述数据是否存在重复记录。4. 4.3数据可用性数据可用性包括时间性、稳定性等。时间性:描述数据是当前数据还是历史数据。稳定性:描述数据是否是稳定的,是否在其有效期内。5数据清洗流程控制数据清洗具体流程如下:#数 据 预 处不通过图3数据清洗具体流程图5.1数据预处理在汇聚多个维度、多个来源、多种结构的数据之后,需要对数 据进行预处理。预处理过程中除了更正、修复系统中的一些错误数 据之外,更多的是对数据进行归并整理,并储存到新的存储介质 中。5.1.1数据抽取数据抽取是从数据源中抽取
11、数据的过程。数据抽取最常用的是 ETL技术,具体数据抽取工具种类繁多,可根据实际业务数据的特 点进行选择。从数据库中抽取数据一般有以下两种方式。a)全量抽取:全量抽取类似于数据镜像或数据复制,它将数据 源中的表或视图的数据原封不动的从数据库中抽取出来。该方法主 要用于在系统数据初始化时使用。b)增量抽取(更新):增量抽取是指在上次抽取完成后,对数 据库中新増或修改的数据的抽取。5.1.2数据过滤数据过滤要初步实现对业务数据中不符合应用规则或者无效的 数据进行过滤操作,使得数据标准统一。5.1.3数据转换数据转换要实现对数据的格式、信息代码、值的冲突进行转 换。常见的业务数据转换规则详见附表“业
12、务数据转换规则表”。5.1.4数据加载数据加载过程进行的主要操作是插入操作和修改操作。将干净 数据及脏数据分别插入到不同的数据表中。对于数据加载工作,一 般会搭建数据库环境,如果数据量大(千万级以上),可以使用文本 文件存储结合脚本程序处理进行操作。5.2数据清洗5. 2.1数据清洗规则数据清洗规则包括:非空检核、主键重复、非法代码清洗、非 法值清洗、数据格式检核、记录数检核。非空检核:要求字段为非空的情况下,需要对该字段数据进行 检核。主键重复:多个业务系统中同类数据经过清洗后,在统一保存 时,为保证主键唯一性,需进行检核工作。非法代码、非法值清洗:非法代码问题包括非法代码、代码与 数据标准
13、不一致等,非法值问题包括取值错误、格式错误、多余字 符、乱码等,需根据具体情况进行校核及修正。数据格式检核:通过检查表中属性值的格式是否正确来衡量其 准确性,如时间格式、币种格式、多余字符、乱码。记录数检核:指各个系统相关数据之间的数据总数检核或者数 据表中每日数据量的波动检核。业务约束检核应在实施过程中与业务人员共同确定,业务人员 从业务的正确性、一致性、有效性等角度考虑数据的检核规则, 如:建档日期、入学日期、民族信息等的有效性检核。5. 2.2脏数据处理数据质量中普遍存在的空缺值、离群值和不一致数据的情况, 这些脏数据可以釆用人工检测、统计学方法、聚类、分类、基于距 离、关联规则等方法来
14、实现数据清洗。脏数据处理具体步骤如下:图4数据清洗路径图根据缺陷类型分类,可以将脏数据分为缺失值数据、错误数据 和错误关联数据三种核心问题数据进行数据清洗。5. 2. 2. 1缺失值处理11不完整的、含噪声的数据是未经清洗的数据集的共同特点。在 数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记 录存在缺失值,是不完整的数据。缺失值是最常见的数据问题,处理缺失值按照以下四个步骤进 行:a)确定缺失值范围:对每个字段都计算其缺失值比例,然后按 照缺失比例和字段重要性,分别制定策略,策略制定参考下图:童要性图5存在缺失值数据处理策略参考图b)对于一些重要性高,缺失率较低的缺失值数据,可根
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贵州省 数据 清洗 加工 规范
链接地址:https://www.31doc.com/p-5199770.html