machine-learning-ops-ml-pipeline

设计并实现一个完整的机器学习流程,用于:$ARGUMENTS

作者

安装

热度:9

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-machine-learning-ops-ml-pipeline&locale=zh&source=copy

Machine Learning Pipeline - 多智能体 MLOps 编排技能

技能概述

这是一个通过多智能体协作方式,设计并实现生产级机器学习流水线的自动化技能,覆盖从数据工程、模型开发、部署上线到持续监控的完整 MLOps 流程。

适用场景

1. 从零搭建企业级机器学习平台

当您需要为一个机器学习项目构建完整的生产环境时,此技能会协调数据工程师、数据科学家、ML 工程师、MLOps 工程师和可观测性工程师等多个专业智能体,系统化地完成数据管道设计、特征工程、模型训练、生产部署和监控告警全流程。

2. 现有 ML 系统的现代化改造

如果您当前的机器学习系统存在手动操作多、可复现性差、监控缺失等问题,此技能可以帮您评估现状,并设计符合现代 MLOps 最佳实践的改进方案,包括引入实验跟踪、CI/CD 自动化、模型漂移检测等关键能力。

3. 特定 ML 技术方案的深度咨询

当您需要针对某个具体技术环节获取专业建议时,如 Kubeflow vs Airflow 的选型决策、特征存储架构设计、模型漂移检测方案等,此技能可以提供基于实战经验的详细分析和实施建议。

核心功能

1. 多智能体协作编排

此技能采用分阶段协调的方式,每个阶段由专业的领域智能体负责:数据工程师处理数据接入与质量保障,数据科学家设计特征与实验方案,ML 工程师实现训练流水线,MLOps 工程师负责生产部署,可观测性工程师确保监控体系完善。各阶段之间有清晰的输出传递和质量把关,确保每个环节都由最懂行的专家处理。

2. 现代化 MLOps 工具链集成

支持主流的 MLOps 工具选型与集成,包括实验跟踪(MLflow、Weights & Biases、Neptune、ClearML)、特征存储(Feast、Tecton、Databricks)、模型服务(KServe、Seldon、TorchServe、Triton)、编排平台(Kubeflow、Airflow、Prefect、Dagster)、监控栈(Prometheus、Datadog、NewRelic)等,可根据您的具体需求和环境提供定制化建议。

3. 生产就绪的交付标准

不仅仅是方案设计,更关注生产环境的实际需求:99.9% 的服务可用性、小于 200ms 的 P99 推理延迟、5 分钟内自动回滚能力、完整的可观测性体系、成本优化策略、灾难恢复流程等。最终交付包括端到端自动化流水线、基础设施即代码、完整的文档与运维手册。

常见问题

ML Pipeline 和传统数据流水线有什么主要区别?

传统数据流水线(如 ETL)主要关注数据的移动和转换,通常是确定性的。而 ML Pipeline 除了数据处理外,还包括模型训练、评估、版本管理、A/B 测试、漂移检测等机器学习特有的环节,且实验过程具有迭代和试错的特性。ML Pipeline 需要管理模型版本、实验元数据、特征定义等额外资产,对可复现性和实验追踪有更高要求。

什么时候需要引入多智能体协作方式?

对于简单的小型 ML 项目,单个工程师或小团队可以完成全部工作。但当项目规模达到一定程度(如多团队协作、严格的 SLA 要求、复杂的合规需求),或者涉及多个专业领域的深度技术决策时,多智能体协作可以确保每个环节都有专业保障,减少跨专业沟通成本,提高交付质量。特别是企业级项目,这种方式可以避免因某个环节的薄弱导致整个系统的问题。

此技能支持哪些云平台和部署模式?

技能设计为云原生架构,支持 AWS、Azure、GCP 或多云混合部署策略。部署模式包括实时推理(REST/gRPC API)、批量预测(定时任务)、流式处理(Kafka/Kinesis)或混合模式。输出包括 Terraform 模块、Kubernetes Helm Chart、Docker 构建配置等基础设施即代码,可以在您选择的云环境中直接使用。