molfeat

分子特征化用于机器学习(含100多种特征化工具)。包括ECFP、MACCS、描述符、预训练模型(如ChemBERTa),可将SMILES转换为特征,适用于定量构效关系及分子机器学习研究。

安装

热度:18

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-molfeat&locale=zh&source=copy

Molfeat - 分子特征化与分子机器学习工具

技能概述


Molfeat 是一个统一的 Python 分子特征化库,提供 100+ 预训练嵌入和手工特征提取器,可将 SMILES 字符串或 RDKit 分子对象转换为机器学习可用的数值表示,支持 QSAR 建模、虚拟筛选和深度学习应用。

适用场景

1. 药物研发与 QSAR 建模


构建定量构效关系 (QSAR/QSPR) 模型,预测分子性质和生物活性。支持 ECFP、MACCS 等经典指纹,以及 RDKit 2D 描述符和 Mordred 描述符,与 scikit-learn 无缝集成,可快速搭建属性预测流程。

2. 大规模虚拟筛选


对百万级化合物库进行并行特征提取和活性预测。利用多核并行处理和内置缓存机制,快速完成化合物库的指纹计算和相似性搜索,支持先导化合物发现和骨架跃迁分析。

3. 分子深度学习


使用 ChemBERTa、ChemGPT、GIN 等预训练模型生成分子嵌入向量,用于图神经网络训练、迁移学习和化学空间分析。支持 Transformer 语言模型和图神经网络,适合复杂分子表征任务。

核心功能

1. 统一特征提取接口


提供 Calculator、Transformer 和 PretrainedTransformer 三层 API,从单分子特征计算到批量并行处理,满足不同使用场景。支持 SMILES 字符串和 RDKit 分子对象输入,自动处理无效分子和错误恢复。

2. 100+ 内置特征提取器


包括分子指纹(ECFP、MACCS、MAP4 等)、分子描述符(RDKit 2D、Mordred 1800+)、预训练模型(ChemBERTa、ChemGPT、GIN、Graphormer)以及药效团和形状描述符,可通过 ModelStore 发现和加载所有可用模型。

3. scikit-learn 兼容与生产部署


完全兼容 scikit-learn Pipeline,支持配置文件保存和加载,确保模型可重现性。提供并行处理、批处理和缓存机制,优化大规模数据处理性能。

常见问题

Molfeat 是什么?适合谁使用?


Molfeat 是一个 Python 分子特征化库,适合计算化学家、药物研发人员和 AI 研究者使用。它统一了 100+ 分子特征提取方法,包括经典指纹、描述符和预训练深度学习模型,可以将化学结构(SMILES)转换为机器学习特征向量。

如何选择合适的分子特征提取器?


对于传统机器学习(随机森林、XGBoost),推荐从 ECFP 指纹开始;对于可解释性需求,使用 RDKit 2D 描述符或 Mordred;对于深度学习任务,使用 ChemBERTa 或 GIN 等预训练模型。虚拟筛选推荐 ECFP 或 MAP4,相似性搜索推荐 ECFP 或 MACCS。

Molfeat 如何处理大规模化合物数据?


使用 MoleculeTransformer 并设置 n_jobs=-1 启用多核并行处理。对于超大数据集(>10万分子),可使用分块处理函数 featurize_in_chunks 控制内存使用。预训练模型支持缓存机制,首次运行后可重复使用嵌入向量。