hugging-face-jobs

该技能适用于用户希望在Hugging Face Jobs基础设施上运行任何工作负载的场景。涵盖UV脚本、基于Docker的任务、硬件选择、成本估算、令牌认证、密钥管理、超时配置和结果持久化等功能。专为通用计算工作负载设计,包括数据处理、推理、实验、批处理任务以及任何基于Python的任务。当涉及云计算、GPU工作负载,或用户提及无需本地设置即可在Hugging Face基础设施上运行任务时,应调用此技能。

作者

安装

热度:0

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-hugging-face-jobs&locale=zh&source=copy

Hugging Face Jobs - 云端机器学习作业调度平台

技能概述


Hugging Face Jobs 是一个无需本地设置即可在云端运行任何工作负载的托管计算平台,支持 CPU、GPU 和 TPU 硬件,可将结果持久化到 Hugging Face Hub。

适用场景

1. 数据处理与批量推理


无需本地算力即可处理大规模数据集。无论是转换过滤数据,还是对数千个样本运行批量推理,都能在云端高效完成。支持流式处理,避免下载完整数据集。

2. 机器学习实验与训练


进行可重现的 ML 实验和基准测试。在没有本地 GPU 的情况下测试代码,或使用云端 GPU/TPU 进行模型微调。支持断点续传和检查点保存。

3. 定时任务与自动化


使用 CRON 表达式创建定时作业,每小时、每天或按自定义计划自动运行数据处理任务、模型推理或报告生成。通过 Webhook 在仓库变更时自动触发作业。

核心功能

UV 脚本支持


使用 PEP 723 内联依赖声明的 UV 脚本,无需额外配置文件。直接提交 Python 代码,自动处理依赖安装。支持自定义 Python 版本和额外的运行时依赖。

灵活的硬件选择


从轻量级 CPU 到高端 GPU/TPU,根据需求选择合适的硬件配置。包括 T4、L4、A10G、A100 等 GPU 选项,以及多 GPU 并行配置。按小时计费,用多少付多少。

完整的作业生命周期管理


提交作业后可实时监控状态、查看日志、取消运行中的任务。支持定时作业的暂停、恢复和删除。结果可自动推送到 Hugging Face Hub,支持私有和公开仓库。

常见问题

Hugging Face Jobs 免费吗?


Hugging Face Jobs 需要 Pro、Team 或 Enterprise 付费计划才能使用。没有免费层级,但按实际使用时长计费,CPU 基础配置约 $0.10/小时,GPU 根据类型从 $1-10+/小时不等。

如何选择合适的硬件配置?


对于轻量级任务如数据处理和测试,使用 cpu-basic 或 cpu-upgrade。小模型(<1B 参数)可用 t4-small。中等模型(1-7B)推荐 t4-medium 或 l4x1。大型模型(7-13B)使用 a10g-small 或 a10g-large。超大模型或高吞吐量场景选择 a100-large 或多 GPU 配置。TPU 适用于 JAX/Flax 工作负载。

作业运行完成后结果会丢失吗?


是的,Jobs 环境是临时的,作业结束后所有文件会被删除。必须主动持久化结果。推荐方式是推送到 Hugging Face Hub(需要在作业配置中添加 HF_TOKEN 密钥)。也可以使用外部存储如 S3/GCS,或通过 API 发送结果到自己的服务。