数据治理平台的建设是一个比数据质检更大、更全面的范畴。数据质检通常是数据治理的一个重要子模块。建设一个完整的数据治理平台,其技术栈更为复杂和集成化。
以下是数据治理平台建设的技术栈全景图,它清晰地展示了从数据源到最终应用的全套技术组件及其相互关系:
各层技术栈详解
1. 元数据管理 (Metadata Management)
核心中的核心,是数据治理的基石,用于采集、存储、分析和展示元数据。
- 开源解决方案:
- Apache Atlas: Hadoop生态的“官方”选择,与Hive、HBase等集成深度好,提供类型系统、血缘和策略管理。
- DataHub (LinkedIn): 现代架构,采用流式元数据架构,REST API优先,前端体验好,社区活跃,是目前的热门选择。
- Amundsen (Lyft): 更侧重于“数据目录”功能,强大的搜索和发现能力,尤其适合分析师和数据科学家找数。
- 商业/云解决方案:
- Collibra, Alation: 行业领导者,功能全面但昂贵。
- AWS Glue Data Catalog, Azure Purview, Google Data Catalog: 云厂商提供的托管服务,与自家生态无缝集成。