1、数据质量
- 完整性:检查记录、字段、数据整体是否完整,有无缺失值或重复数据。
- 例如记录完整性关注重要属性是否有值、是否存在关联记录;字段完整性查看字段是否有空值或缺失值 。可通过监控平台对每天数据条数波动进行监控,判断是否有记录缺失 。
- 准确性:确认数据类型、格式、范围是否正确,以及数据是否与其他相关数据一致。
- 如数据类型需符合预期,数据格式要满足指定要求 。可通过数据清洗去除重复数据、空值、错误数据等,同时编写脚本或人工审核等方式验证数据 。
- 一致性:确保数据在不同层级和不同系统中保持一致。
- 例如主备任务数据是否一致,全链路数据是否一致等 。
- 及时性:看数据是否及时更新,是否在预期时间内收集和处理。
- 比如调度、产出时间是否能保障天级、小时级、实时产出等 。
2、数据架构
- 数据模型设计:评估数据模型是否合理,是否符合业务需求和数仓设计的最佳实践。
- 例如是否遵循维度建模等理论,能否帮助模型用户更方便理解业务,在质量、效率等方面取得平衡 。
- 数据分层设计:查看数据是否按照合理的分层结构进行设计,
- 如常见的ODS(操作数据存储)层、DWD(明细数据层)层、DWS(汇总数据层)、ADS(应用数据层)等,各层分工是否明确 。
- 数据血缘关系:确保数据血缘清晰,能够追溯数据从产生到消费的全过程
- 包括表的创建、调度、产出时间,表之间的血缘关系、层级定义,以及字段类型、存储位置等元数据信息 。
3、数据处理能力
- 处理效率:衡量数据处理的速度,能否快速完成数据的清洗、转换、加载等操作,满足业务对数据获取的时效性要求。
- 例如是否对数据计算参数进行优化,选择高级参数,像HBO(基于历史运行参数自动优化参数)、CBO(基于统计metric和代价模型来优化任务) 。
- 处理稳定性:关注数据处理过程是否稳定,是否频繁出现故障或错误。
- 例如系统能否应对数据量的增长和业务需求的变化,不会因数据量突增等情况导致处理失败 。
- 扩展性:考察数据处理系统是否易于扩展,以适应未来业务发展带来的数据量增加和新的业务需求。
- 例如数据重分布(repartition),能否降低shuffle开销、热点问题,提高查询效率,从而应对数据量增长 。
4、数据应用能力
- 支持业务决策能力:看数据是否能为业务决策提供有效支撑。
- 例如在决策前,能否通过业务分析、环境分析、客户洞察等方式了解业务现状,梳理指标体系,量化策略目标;
- 决策中,能否将方案转化为可评估的数据指标进行对比评估,筛选最优方案;
- 决策后,能否建立执行过程监控指标,分析策略执行效果,复盘经验 。
- 支持业务创新能力:评估数据是否有助于发现新的业务机会和商业模式。
- 例如是否能通过对大量数据的分析和挖掘,发现潜在的市场需求、用户行为模式等,为业务创新提供方向 。
5、数据治理能力
- 数据安全管理:确保数据具有完善的安全管理机制,
- 如访问控制、数据加密等,保护数据的安全和隐私,防止数据泄露和非法访问 。
- 数据质量管理:建立完善的数据质量管理机制,
- 通过数据清洗、验证等手段,保证数据的质量和准确性,同时利用监控平台对数据质量进行实时监控和预警 。
- 数据元管理:具备完善的数据元管理机制,
- 对数据的定义、描述、关系等元数据进行准确记录和管理,确保数据的一致性和可理解性 。
6、数据团队能力
- 专业能力:团队成员应具备数仓开发、模型设计、指标生产、大数据工程调优等