data-engineer
构建可扩展的数据管道、现代化数据仓库及实时流处理架构。实施Apache Spark、dbt、Airflow及云原生数据平台。主动采用PROACTIVELY进行数据管道设计、分析基础设施建设或现代数据技术栈部署。
作者
分类
开发工具安装
热度:3
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-data-engineer&locale=zh&source=copy
数据工程师技能 - 构建现代数据管道与数据平台
技能概述
Expert data engineer for building scalable data pipelines, modern data warehouses, and real-time streaming architectures using Apache Spark, dbt, Airflow, and cloud-native platforms.
适用场景
数据管道设计与实现
设计批处理和流处理数据管道,构建端到端的数据流动解决方案。从数据源抽取、转换到加载目标系统,处理大规模数据的可靠传输和转换需求。
数据仓库与数据湖构建
搭建现代数据仓库或湖房(lakehouse)架构,实现企业级数据存储和查询优化。支持 Snowflake、BigQuery、Redshift 等云数据仓库,以及基于 S3、ADLS、GCS 的数据湖。
分析基础设施与数据平台
建设完整的数据平台基础设施,包括工作流编排、数据质量监控、数据治理和元数据管理。实现数据产品的自助服务和数据驱动的业务决策支持。
核心功能
现代数据栈架构
掌握完整现代数据栈技术组合,包括数据集成(Fivetran/Airbyte)、数据转换(dbt)、数据仓库(Snowflake/BigQuery)和BI工具的集成。支持数据网格架构和领域驱动的数据所有权设计。
批处理与流式处理
精通 Apache Spark 4.0 进行大规模批数据处理,使用 Apache Kafka、Flink 构建实时流处理管道。支持 AWS Kinesis、Azure Event Hubs、Google Pub/Sub 等云原生流处理服务。
工作流编排与监控
使用 Apache Airflow、Prefect、Dagster 进行复杂工作流编排,实现依赖管理、动态任务生成和故障恢复。配套完善的监控告警和数据血缘追踪能力。
常见问题
数据工程师和数据分析师有什么区别?
数据分析师专注于使用现有数据进行探索性分析和可视化,回答业务问题。数据工程师则负责构建和管理数据基础设施,设计数据管道,确保数据的可靠流动、质量和可用性。简单来说,数据工程师为数据分析师"铺路架桥"。
如何选择合适的数据仓库技术?
选择数据仓库需要考虑多个因素:数据规模、查询性能要求、预算成本、团队技术栈和云平台偏好。Snowflake 适合需要弹性扩展和多云策略的场景;BigQuery 在 GCP 生态中有成本优势;Redshift 适合深度绑定 AWS 的团队;开源选项如 ClickHouse 和 Apache Doris 适合自建需求。
什么时候需要实时数据管道?
当业务场景需要低延迟响应时就需要实时管道,例如:实时推荐系统、欺诈检测、IoT 设备监控、实时仪表盘、用户行为分析等。如果数据可以接受小时级或天级的延迟,批处理通常更简单且成本更低。
本技能的限制是什么?
本技能专注于数据工程相关任务。如果你只需要进行探索性数据分析(EDA)、ML模型开发而无需管道、或者无法访问数据源和存储系统,请考虑使用其他专门的技能。
数据工程师需要掌握哪些核心技术?
核心技术包括:SQL(必备)、Python/Scala 编程、数据建模(维度建模、Data Vault)、至少一种批处理框架(Spark)、工作流编排(Airflow)、云平台数据服务、数据质量工具,以及容器化和基础设施即代码的基本知识。