大数据之数据质量分析

fansichao 2021-10-23 16:25:17
Categories: Tags:

数据质量

互联网是一个建立在数据之上的服务行业,数据质量的好坏直接影响到企业的生存能力和竞争力。如果数据质量不佳,便容易给企业带来以下危害:

数据质量标准

数据的记录和信息是否完整。如字段信息是否完整、有没有因上游系统出问题而导致的数据丢失、有没有出现正常 100w 的数据今天却没有数据的情况等。

数据的记录是否正确。简单的如是否出现常识性错误(年龄大于 200 岁,收货金额为负值等),电话号码、邮箱、ip 等是否符合规范,枚举值是否正确等等。复杂一点的如基于维度的统计指标有没有问题,如平均值、总和、按照枚举值 group by 数据分布有没有异常等。

数据产出是否及时。数仓团队加工数据需要指定几点前必须产出并交给下游业务和相关分析人员。一般决策分析师需要分析前一日的数据(T+1),如果数据隔几天才能看到,就会失去分析数据的价值。而某些业务甚至有小时级别以及实时的需求,及时性要求也就更高了。

企业数仓可能存在分支,同一份数据在不同地方需要保持一致;对于一些表的值可能参照另外一些表需要保持一致;对于表的字段类型以及值也需要保持一致(如地点写上海还是上海市,性别是 f、m 还是 0、1 标示等等)。

如何提升数据质量

Step 1:事前定义数据的监控规则

Step 2:事中监控和控制数据生产过程

Step 3:事后分析和问题跟踪

要想真正解决数据质量问题,应该从需求开始

  1. 明确业务需求并从需求开始控制数据质量
  2. 建立数据质量管理机制
    1. 探查数据内容、结构和异常
    2. 建立数据质量度量并明确目标
    3. 设计和实施数据质量业务规则
    4. 将数据质量规则构建到数据集成过程中
    5. 检查异常并完善规则
    6. 对照目标,监测数据质量
  3. 对不同数据的数据问题分类处理
    1. 历史数据
      1. 用数据清洗的办法来解决,清洗的过程要综合使用各类数据源,提升历史数据的质量。
    2. 当前数据
      1. 当前数据的问题,需要通过从问题定义、问题发现、问题整改、问题跟踪、效果评估 5 个方面来解决
    3. 未来数据
      1. 未来数据的处理,一般要采用做数据规划的方法来解决,从整个企业信息化的角度出发,规划统一企业数据架构,制定企业数据标准和数据模型。借业务系统改造或者重建的时机,来从根本上提高数据质量

通过对不同时期数据的分类处理,做到事前预防、事中监控、事后改善,有助于从根源上解决数据质量问题,为企业的发展带来突破和创新。

质量监控工具

参考资源