数据质量管理系统应用.docx
《数据质量管理系统应用.docx》由会员分享,可在线阅读,更多相关《数据质量管理系统应用.docx(8页珍藏版)》请在三一文库上搜索。
1、第 1 页 数据质量管理系统应用 特征码 hWrKQZMbEtSQfmLfIuog 数据质量管理系统应用 -生活篇 最近在看关于综合分析数据质量管理规范的时候,结合实际生 活当中的例子。在这里说出来,可以讨论一下。这里主要是指 标值数据质量的管理: 1:数值检查个可以和我们固定的阈值检查结合起来,即通过检 查单个指标的数值和阈值的比较发现指标的异常和变动的情况。 这个就是固定阈值的一种情况。比如当地铁离近站只有 4 分钟 的时候,地铁旁边的灯会一直闪烁。地铁离开车只有一分钟要 关门的时候,就会告警即将开车。以免突然开车造成人的伤害。 2:波动检查:一般就是同比波动的检查和环比波动的检查。先 计
2、算指标的同比或环比波动率,然后与预订的波动率上下限 (阈值)进行比较。这个就是范围阈值。例如昨天公交车上有 第 2 页 一条新闻就是重庆目前一小时之内公交车换成免费。那么这一 个小时之内就是一个范围阈值,只要在一个小时之内不收钱, 即什么也不做,但是当超过一个小时之后就要收钱。那么我们 这里就需要告警。 3:还有一种日常当中常用的就是动态阈值比如我们乘坐地铁的 时候根据路程的不同地铁价格不同。以及依照路程计价的公交 车也一样,路程不同,价格不同。本质上都是乘坐地铁或者公 交,但是由于距离问题因此价格不同,比如收入指标阈值制定 的时候,比如不同的地市,在同一时间维度阈值是不同。比如 经济发达地区
3、应该制定高一点,经济欠发达地区制定低一点。 4:指标之间的关联检查,比如我们常说的同增同减关联关系, 还是以地铁为例,路程增加了,那价格相应就增加了。比如我 们理论上我们的用户数增加了,那么收入应该有所增加。但是 有时候反而用户量增加了,收入却下降了。 增加的用户数比丢 失的用户数多因此整体上用户量增加了。但是增加的用户量都 是一些劣质用户,而丢失了一部分高端用户。从而导致用户数 增加,收入下降的局面。 5:指标平衡检查:对若干个指标值的简单四则运算(加、减、 乘、除) ,来检验各个指标间潜在的平衡或其他比较关系。比如 第 3 页 有些指标日指标汇总应该与月指标的值平衡。 当发现数据出现异常的
4、时候,首先先分析一下,是不是一些因 素导致指标的变化,比如节假日,周末,市场营销策略,以及 外部的一些政策对指标造成的变化,然后再查看是不是真的是 数据质量的问题,以及源接口数据的问题。 数据质量管理系统-理论篇 数据质量管理系统: 一:从以下 5 个方面对数据的质量进行管控 1:及时性:数据获取是否及时,主要指数据提取、传送、转换、 加载、展现的及时性。在数据处理的各个环节,都会涉及到及 时性。我们一般考虑两个方面第一就是接口数据是否 能够及时 的抽取过来。第二就是展现层能否及时的展现出来。 2:完整性:是指数据是否完整,描述的数据要素,要素属性及 要素关系存在或不存在,主要包括实体缺失、属
5、性缺失、记录 缺失以及主外键参照完整性的内容。 第 4 页 3:一致性:第一就是原始数据即文件接口和入库的数据记录条 数是一致的。 第二就是同一指标在任何地方都应该保持一致。 4:有效性:描述数据取值是否在界定的值域范围内,主要包括 数据格式、数据类型、值域和相关业务规则的有效性。 5:准确性:主要是指指标算法、数据处理过程的准确性。这个 准确性主要是通过元数据管理中定义的指标的算法、数据处理 顺序和人工检查相结合的方式来保证。 二:数据仓库中需要进行质量管理的数据分类 1:接口数据:接口数据是整个数据仓库的生命的起点,如果接 口数据有问题的话会严重影响数据仓库后面的报表以及分析结 果。 接口
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量管理 系统 应用
链接地址:https://www.31doc.com/p-602829.html