esm
蛋白质语言模型综合工具包,涵盖ESM3(跨序列、结构与功能的多模态生成式蛋白质设计)和ESM C(高效蛋白质嵌入与表征)。适用于蛋白质序列分析、结构预测、功能推断、新型蛋白质设计、蛋白质嵌入生成、逆向折叠研究及蛋白质工程任务。支持本地模型部署与基于云的Forge API调用,可实现可扩展的推理计算。
分类
开发工具安装
热度:5
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-esm&locale=zh&source=copy
ESM:蛋白质语言模型与设计工具
技能概述
ESM (Evolutionary Scale Modeling) 是一个用于蛋白质理解、生成和设计的语言模型工具包,提供 ESM3 多模态生成模型和 ESM C 嵌入模型,支持序列生成、结构预测、逆向折叠等功能。
适用场景
1. 蛋白质设计与工程
当需要从头设计新蛋白质、优化现有蛋白质序列或生成具有特定功能的蛋白质变体时使用。支持功能条件生成,可以根据目标功能属性设计蛋白质序列,适用于酶工程、抗体优化、荧光蛋白设计等场景。
2. 蛋白质结构预测与分析
当需要从氨基酸序列预测蛋白质三维结构,或进行逆向折叠(根据结构设计序列)时使用。ESM3 的结构轨道可以生成 3D 坐标和 PDB 格式输出,适合结构生物学研究和蛋白质稳定性分析。
3. 蛋白质嵌入与特征提取
当需要将蛋白质序列转化为数值向量进行下游机器学习任务时使用。ESM C 模型可以生成高质量的蛋白质表示,适用于相似性计算、功能分类、聚类分析等任务。
核心功能
1. 多模态蛋白质生成
ESM3 支持在序列、结构、功能三个轨道上进行生成,可以单独或联合使用。通过链式思维 (Chain-of-Thought) 方法,可以迭代优化蛋白质设计,先预测结构再优化序列,最后验证功能。支持本地部署和云端 Forge API 调用,提供从 1.4B 到 98B 不同规模的模型选择。
2. 蛋白质嵌入与表示学习
ESM C 提供 300M、600M、6B 三种规模的模型,用于生成蛋白质嵌入向量。支持批量处理多个序列,适用于大规模蛋白质数据集的特征提取。生成的嵌入可用于蛋白质分类、功能预测、相似性搜索等下游任务。
3. 结构预测与逆向折叠
支持从序列预测结构,以及从结构反向设计序列。对于逆向折叠任务,可以输入目标结构(PDB 格式),移除序列信息后让模型生成能折叠到该结构的序列。这对于蛋白质稳定性改造和设计特定结构支架非常有用。
常见问题
ESM 和 AlphaFold 有什么区别?
ESM 和 AlphaFold 都是蛋白质相关的深度学习工具,但用途不同。AlphaFocus 主要专注于高精度的蛋白质结构预测,而 ESM 是一个更全面的蛋白质语言模型,除了结构预测外,还支持序列生成、逆向折叠、功能预测、嵌入提取等多种任务。如果只需要预测已知序列的结构,AlphaFold 可能更准确;如果需要进行蛋白质设计或多种下游任务,ESM 更合适。
如何选择 ESM3 和 ESM C?
ESM3 是生成式模型,适用于创建新序列、预测结构、设计功能等创造性任务。ESM C 是嵌入模型,适用于将序列转化为向量表示,用于分类、相似性计算等分析任务。简单来说,需要"生成"用 ESM3,需要"分析"用 ESM C。两者也可以配合使用,例如用 ESM3 生成候选序列,再用 ESM C 提取特征进行筛选。
本地部署和云端 API 怎么选?
本地部署适合开发测试、数据敏感场景或需要大量迭代调整的情况。esm3-sm-open-v1 是开源模型,可以完全本地运行,但模型规模较小(1.4B)。云端 Forge API 提供更大规模的模型(7B、98B),质量和速度更好,但需要网络连接和 API 配额。建议先用本地模型快速验证想法,确定方案后再使用 API 进行大规模高质量生成。