deepchem

分子机器学习,具备多样化特征提取器和预置数据集。适用于属性预测(如ADMET、毒性评估),支持传统机器学习或图神经网络,尤其适合需要丰富特征化选项和MoleculeNet基准测试的场景。最适合利用预训练模型和多种分子表征进行快速实验。若需优先处理图结构的PyTorch工作流,推荐使用torchdrug;若需基准数据集,推荐使用pytdc。

安装

热度:21

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-deepchem&locale=zh&source=copy

DeepChem - 分子机器学习与药物发现 Python 库

技能概述


DeepChem 是一个专为化学、材料科学和生物学设计的 Python 机器学习库,提供分子数据加载、特征化、图神经网络和预训练模型,用于分子属性预测和药物发现。

适用场景

1. 分子属性预测


当需要预测分子的理化性质或生物活性时,例如溶解度、毒性、结合亲和力或 ADMET 性质。DeepChem 提供 30+ MoleculeNet 基准数据集和多种模型选择,从随机森林到图神经网络。

2. 药物发现与筛选


适用于药物研发中的先导化合物筛选、活性预测和毒性评估。支持基于分子骨架的数据划分(Scaffold Splitter),避免相似分子在训练和测试集间泄漏,确保模型评估可靠性。

3. 小样本迁移学习


当实验数据量有限(<1000 样本)时,可使用 ChemBERTa、GROVER、MolFormer 等预训练模型进行微调,获得比从头训练更好的预测性能。

核心功能

分子数据加载与特征化


支持多种化学数据格式(SMILES、SDF、FASTA),提供 20+ 种特征化方法:分子指纹(ECFP)、描述符、图表示、3D 结构等。根据模型类型自动推荐合适的特征化方案。

图神经网络模型


内置 GCN、GAT、MPNN、AttentiveFP 等图神经网络架构,专为分子结构设计。配合 MolGraphConvFeaturizer 或 DMPNNFeaturizer,可端到端学习分子表示。

MoleculeNet 基准测试


一键加载 Tox21、BBBP、Delaney、QM9 等 30+ 标准基准数据集,提供标准化的训练/验证/测试划分和评估指标,方便模型对比和性能基准测试。

常见问题

DeepChem 适合初学者使用吗?


适合。DeepChem 提供 MoleculeNet 预置数据集和简洁 API,可快速开始分子机器学习实验。建议从随机森林 + 分子指纹的简单组合入手,再逐步尝试深度学习模型。

小数据集应该选择什么模型?


对于 <1000 样本的数据集,推荐使用迁移学习(ChemBERTa 或 GROVER)预训练模型微调,或使用传统的随机森林/XGBoost 配合分子指纹。深度学习模型在小数据集上容易过拟合。

DeepChem 和 torchdrug 有什么区别?


DeepChem 优势在于多样化的特征化方法和丰富的预置数据集(MoleculeNet),适合快速实验和传统 ML 工作流。torchdrug 更专注于 PyTorch 图神经网络,适合需要高度定制化的图模型研究。