data-quality-frameworks

使用Great Expectations、dbt测试和数据契约实施数据质量验证。适用于构建数据质量管道、实施验证规则或建立数据契约的场景。

作者

安装

热度:4

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-data-quality-frameworks&locale=zh&source=copy

Data Quality Frameworks - 数据质量验证与测试框架

技能概述


Data Quality Frameworks 技能提供基于 Great Expectations、dbt 测试和数据合约的生产级数据质量验证方案,帮助您在数据管道中建立可靠的质量保证体系。

适用场景

1. 数据管道质量检查


在 ETL/ELT 流程中实施数据质量验证,确保数据从一个阶段流向另一个阶段时保持完整性和准确性。支持自动化检查并在数据异常时及时告警。

2. 数据质量测试套件建设


使用 dbt 构建全面的数据测试体系,包括列级、表级和跨表验证规则,覆盖数据完整性、唯一性、数据类型、值域等多个质量维度。

3. 跨团队数据合约管理


定义和实施数据合约,明确数据生产者和消费者的质量责任,建立数据服务的 SLA 标准,减少因数据质量问题导致的协作摩擦。

核心功能

Great Expectations 验证


提供灵活的数据期望定义和验证框架,支持自动生成数据文档、丰富的验证规则库和可扩展的自定义检查器,适用于各种数据源和数据格式。

dbt 测试集成


将数据质量测试直接嵌入数据转换流程,实现测试与代码的版本同步管理,支持单元测试、集成测试和数据质量监控的全生命周期管理。

数据合约管理


定义清晰的数据 Schema 和质量期望,自动生成合约文档,提供合约验证工具,确保数据服务符合预定义的质量标准和兼容性要求。

常见问题

Great Expectations 和 dbt 测试有什么区别?


Great Expectations 是一个独立的数据验证框架,支持多种数据源和丰富的验证规则,适合在管道各阶段进行数据质量检查。dbt 测试是内置于 dbt 转换流程的测试功能,更适合测试数据模型的正确性。两者可以互补使用:在数据进入数据仓库前用 Great Expectations 验证,在数据转换后用 dbt 测试验证。

数据质量检查会影响管道性能吗?


数据质量检查会带来一定的计算开销,但可以通过合理配置来平衡性能和质量保证。建议对关键数据集和表设置必检项,对非关键数据使用抽样检查,并将验证任务调度到低峰期执行。同时可以考虑增量验证和只检查变化的分区等优化策略。

什么时候需要建立数据合约?


当多个团队或服务之间需要共享数据,且数据质量直接影响下游业务时,就应该考虑建立数据合约。典型的场景包括:数据平台向业务团队提供数据服务、不同数据团队之间的数据交换、API 输出的数据结构保证等。数据合约能减少因数据结构变更或质量问题导致的生产事故。