数据管道架构专家 - ETL/ELT 与流式数据处理完整指南

数据管道架构专家技能

技能概述

这是一个数据管道架构专家技能，专注于设计可扩展、可靠且成本优化的批处理和流式数据管道，涵盖从架构设计到运维监控的完整数据工程生命周期。

适用场景

1. 数据管道架构设计与规划

当您需要评估数据源、数据量和延迟要求，选择合适的架构模式（ETL/ELT、Lambda、Kappa 或 Lakehouse）时，该技能可以提供架构模式选择、技术栈推荐和数据流设计方案。

2. 数据管道实现与开发

当您正在实现批处理或流式数据摄取、使用 dbt 或 Spark 进行数据转换、配置 Airflow 或 Prefect 工作流编排时，该技能可以提供代码实现指导和最佳实践建议。

3. 数据管道运维与优化

当您需要实现数据质量监控、配置告警策略、优化存储成本或进行故障排查时，该技能可以提供监控配置、成本优化策略和运维手册。

核心功能

1. 多架构模式设计支持

支持 ETL（先转换后加载）、ELT（先加载后转换）、Lambda（批处理+速度层）、Kappa（纯流式）和 Lakehouse（统一架构）五种主流架构模式的设计指导，包括架构图绘制、技术栈选型和可扩展性分析。

2. 端到端数据质量框架

集成 Great Expectations 和 dbt Tests 两套数据质量方案，提供表级和字段级验证规则、检查点配置、数据文档生成和失败告通知机制，确保数据质量检查通过率达 99% 以上。

3. 全面监控与成本优化

提供 CloudWatch/Prometheus/Grafana 监控配置、记录处理/失败数、数据大小、执行时间等核心指标，以及通过分区优化、生命周期策略和计算实例选择实现 30-50% 的基础设施成本节约。

常见问题

数据管道架构有哪些常见模式？

数据管道架构主要有五种模式：ETL（数据转换后加载到目标系统）、ELT（先加载再转换，适合云数据仓库）、Lambda（结合批处理和流处理层的混合架构）、Kappa（纯流式处理架构）和 Lakehouse（统一数据湖和数据仓库的新型架构）。选择哪种模式取决于您的数据量、延迟要求和业务需求。

ETL 和 ELT 的区别是什么？

ETL（Extract-Transform-Load）在数据加载到目标系统之前进行转换，适合传统数据仓库场景；ELT（Extract-Load-Transform）先将数据加载到目标系统再进行转换，利用现代数据仓库的计算能力，更灵活且成本更低。ELT 是云原生数据工程的主流选择。

数据管道如何进行成本优化？

成本优化可以从多个维度实施：存储层面采用合理的分区策略（保持分区大小 >1GB）、文件大小控制在 512MB-1GB（Parquet 格式）、配置生命周期策略（热→温→冷）；计算层面批处理使用 Spot 实例、流式处理使用按需实例、临时查询使用 Serverless；查询层面通过分区裁剪、聚类和谓词下推提升性能。

Lambda 架构和 Kappa 架构有什么区别？

Lambda 架构包含批处理层（处理全量历史数据）、速度层（处理实时数据）和服务层（合并两者结果），维护两套代码复杂度高。Kappa 架构只保留流处理层，通过重放消息队列历史数据来处理全量数据，架构更简单但依赖强大的流处理能力。

怎么保证数据管道的数据质量？

可以通过多层质量保证机制：摄取层进行 schema 验证和死信队列处理；转换层使用 dbt 的内置测试（unique、not_null、relationships）和自定义测试；独立的质量层使用 Great Expectations 配置表级和字段级验证规则；设置数据新鲜度检查和自动化告通知。

数据管道监控应该关注哪些指标？

核心监控指标包括：业务指标（记录处理数、失败数、数据量）、性能指标（执行时间、端到端延迟）、质量指标（数据质量评分、新鲜度）、系统指标（CPU/内存使用、错误率）和成本指标（按任务/表/项目分摊的成本）。建议配置 Grafana 或 CloudWatch 仪表盘进行可视化监控。

data-engineering-data-pipeline

作者

分类

安装