Transformers 技能 - Hugging Face 预训练模型开发指南

技能概述

Transformers 技能提供使用 Hugging Face Transformers 库加载预训练模型、执行推理和微调定制数据的完整工作流，覆盖自然语言处理、计算机视觉、语音和多模态任务。

适用场景

1. 自然语言处理项目

适用于文本生成、情感分析、命名实体识别、机器翻译、文本摘要、问答系统等常见 NLP 任务。通过 Pipeline API 可快速实现原型，使用 Trainer API 可在自定义数据集上进行微调，获得更好的领域适配效果。

2. 计算机视觉与音频处理

支持图像分类、目标检测、音频分类、语音识别等任务。配合 timm、pillow 或 librosa 等依赖库，可以处理视觉和音频数据，实现多模态 AI 应用开发。

3. 模型研究与微调

适合需要深入研究模型内部结构、自定义加载配置、管理设备放置和精度的场景。提供完整的 Tokenization、文本生成策略（贪婪、束搜索、采样）和分布式训练支持，满足从快速实验到生产部署的各种需求。

核心功能

1. Pipeline 快速推理

提供开箱即用的推理接口，支持文本生成、分类、NER、问答、摘要、翻译、图像分类、目标检测、音频分类等数十种任务。无需手动配置预处理和后处理，适合快速原型开发和简单推理任务。

2. 模型加载与管理

支持 AutoModel 和 AutoTokenizer 自动加载，提供设备自动映射（device_map="auto"）、精度控制（FP16/BF16）、模型检查点保存与恢复等高级功能。适合需要精细控制模型初始化和部署的场景。

3. 训练与微调

集成 Trainer API，支持自动混合精度训练、分布式训练、日志记录和评估。可在自定义数据集上高效微调 BERT、GPT、T5 等预训练模型，实现任务特定适配和领域知识注入。

常见问题

如何开始使用 Transformers？

使用 pip 安装核心依赖 uv pip install torch transformers datasets evaluate accelerate，然后通过 Pipeline API 快速上手：from transformers import pipeline; classifier = pipeline("text-classification")。部分模型需要 Hugging Face Hub Token，可通过 login() 或环境变量设置。

Pipeline 和手动加载模型有什么区别？

Pipeline 适合快速原型和标准推理任务，自动处理预处理和后处理；手动加载模型适合需要自定义配置、深入研究模型或优化性能的场景。如果只是简单推理，优先使用 Pipeline；如果需要精细控制或特殊处理，手动加载更合适。

如何在自己的数据集上微调模型？

使用 Trainer API 配置训练参数（epoch、batch size、学习率等），准备训练数据集，然后调用 trainer.train() 开始训练。Transformers 支持自动混合精度、分布式训练和进度日志，可高效完成模型微调。详见 references/training.md 了解完整工作流。