molfeat
分子特征化用于机器学习(含100多种特征化工具)。包括ECFP、MACCS、描述符、预训练模型(如ChemBERTa),可将SMILES转换为特征,适用于定量构效关系及分子机器学习研究。
分类
AI 技能开发安装
热度:18
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-molfeat&locale=zh&source=copy
Molfeat - 分子特征化与分子机器学习工具
技能概述
Molfeat 是一个统一的 Python 分子特征化库,提供 100+ 预训练嵌入和手工特征提取器,可将 SMILES 字符串或 RDKit 分子对象转换为机器学习可用的数值表示,支持 QSAR 建模、虚拟筛选和深度学习应用。
适用场景
1. 药物研发与 QSAR 建模
构建定量构效关系 (QSAR/QSPR) 模型,预测分子性质和生物活性。支持 ECFP、MACCS 等经典指纹,以及 RDKit 2D 描述符和 Mordred 描述符,与 scikit-learn 无缝集成,可快速搭建属性预测流程。
2. 大规模虚拟筛选
对百万级化合物库进行并行特征提取和活性预测。利用多核并行处理和内置缓存机制,快速完成化合物库的指纹计算和相似性搜索,支持先导化合物发现和骨架跃迁分析。
3. 分子深度学习
使用 ChemBERTa、ChemGPT、GIN 等预训练模型生成分子嵌入向量,用于图神经网络训练、迁移学习和化学空间分析。支持 Transformer 语言模型和图神经网络,适合复杂分子表征任务。
核心功能
1. 统一特征提取接口
提供 Calculator、Transformer 和 PretrainedTransformer 三层 API,从单分子特征计算到批量并行处理,满足不同使用场景。支持 SMILES 字符串和 RDKit 分子对象输入,自动处理无效分子和错误恢复。
2. 100+ 内置特征提取器
包括分子指纹(ECFP、MACCS、MAP4 等)、分子描述符(RDKit 2D、Mordred 1800+)、预训练模型(ChemBERTa、ChemGPT、GIN、Graphormer)以及药效团和形状描述符,可通过 ModelStore 发现和加载所有可用模型。
3. scikit-learn 兼容与生产部署
完全兼容 scikit-learn Pipeline,支持配置文件保存和加载,确保模型可重现性。提供并行处理、批处理和缓存机制,优化大规模数据处理性能。
常见问题
Molfeat 是什么?适合谁使用?
Molfeat 是一个 Python 分子特征化库,适合计算化学家、药物研发人员和 AI 研究者使用。它统一了 100+ 分子特征提取方法,包括经典指纹、描述符和预训练深度学习模型,可以将化学结构(SMILES)转换为机器学习特征向量。
如何选择合适的分子特征提取器?
对于传统机器学习(随机森林、XGBoost),推荐从 ECFP 指纹开始;对于可解释性需求,使用 RDKit 2D 描述符或 Mordred;对于深度学习任务,使用 ChemBERTa 或 GIN 等预训练模型。虚拟筛选推荐 ECFP 或 MAP4,相似性搜索推荐 ECFP 或 MACCS。
Molfeat 如何处理大规模化合物数据?
使用
MoleculeTransformer 并设置 n_jobs=-1 启用多核并行处理。对于超大数据集(>10万分子),可使用分块处理函数 featurize_in_chunks 控制内存使用。预训练模型支持缓存机制,首次运行后可重复使用嵌入向量。