语音智能体代表了人机交互的前沿——人类以自然语言与AI系统交流。真正的挑战不仅在于语音识别与合成,更在于实现低于800毫秒延迟的自然对话流,同时处理打断、背景噪音和情感细微变化。这项技术涵盖两种架构:端到端语音交互(如OpenAI实时API,延迟最低、最自然)和流水线架构(语音转文本→大语言模型→文本转语音,可控性更强、更易调试)。核心在于:延迟是决定性约束。
高性能强化学习框架,专为速度与规模优化而设计。适用于需要快速并行训练、向量化环境、多智能体系统或游戏环境(如Atari、Procgen、NetHack)集成的场景。相比标准实现可获得2-10倍的加速效果。若需快速原型设计或具有详尽文档的标准算法实现,建议选用stable-baselines3。
测试与基准评估LLM智能体,涵盖行为测试、能力评估、可靠性指标及生产环境监控——即使在现实基准测试中,顶尖智能体的表现也常低于50%。适用场景:智能体测试、智能体评估、智能体基准对比、智能体可靠性验证、智能体测试实践。
通过对现有智能体进行性能分析、提示工程优化以及持续迭代,实现系统性的性能提升。
自主AI智能体设计与构建专家。精通工具运用、记忆系统、规划策略及多智能体协同编排。适用场景:智能体开发、AI代理、自主智能体、工具调用、函数调用。
基于9点验证与两轮人机交互流程的RAG系统认知质量预摄取验证
高效使用Claude代码的权威指南。涵盖配置模板、提示策略"思考"关键词、调试技巧,以及与智能体交互的最佳实践。
打造能够像人类一样与计算机交互的AI智能体——观察屏幕、移动光标、点击按钮、输入文本。涵盖Anthropic的计算机使用、OpenAI的Operator/CUA及开源替代方案。重点关注沙箱环境、安全性以及应对基于视觉控制的独特挑战。适用于:计算机操作、桌面自动化代理、屏幕控制AI、基于视觉的智能体、图形用户界面自动化。
构建LLM应用的生产就绪模式。涵盖RAG管道、智能体架构、提示词IDE及LLMOps监控。适用于设计AI应用、实施RAG、构建智能体或建立LLM可观测性场景。
利用MLflow、Kubeflow及现代MLOps工具构建全面的机器学习流水线、实验追踪与模型注册系统。实现跨云平台的自动化训练、部署与监控流程。主动采用该方案优化ML基础设施、实验管理及流水线自动化。
多目标优化框架。NSGA-II、NSGA-III、MOEA/D算法,帕累托前沿,约束处理,基准测试问题(ZDT、DTLZ系列),适用于工程设计与优化问题。
治疗数据共享平台。提供面向人工智能的药物发现数据集(如ADME、毒性、药物靶点相互作用)、基准测试、骨架分割、分子预测模型,服务于治疗性机器学习和药理学预测。
图神经网络(PyG)。节点/图分类、链接预测、图卷积网络、图注意力网络、GraphSAGE、异构图、分子属性预测,适用于几何深度学习。
该技能适用于处理预训练的Transformer模型,涵盖自然语言处理、计算机视觉、音频及多模态任务。可用于文本生成、分类、问答、翻译、摘要、图像分类、目标检测、语音识别,以及在自定义数据集上进行模型微调等场景。
记忆是智能体的基石。没有记忆,每一次交互都需从零开始。本节技能涵盖智能体记忆架构:短期记忆(上下文窗口)、长期记忆(向量数据库),以及组织这些记忆的认知架构。核心洞见在于:记忆不仅是存储,更是检索。若无法准确提取信息,存储百万条事实也毫无意义。分块处理、嵌入技术与检索策略共同决定了智能体能否有效记忆而非遗忘。当前该领域仍处于碎片化发展阶段——
设计并实现一个完整的机器学习流程,用于:$ARGUMENTS
构建从数据准备到模型训练、验证及生产部署的端到端MLOps流水线。适用于创建机器学习管道、实施MLOps实践或自动化模型训练与部署工作流的场景。
专家指南:提示工程模式、最佳实践与优化技巧。适用于用户希望改进提示、学习提示策略或调试智能体行为的场景。