deepchem
分子机器学习,具备多样化特征提取器和预置数据集。适用于属性预测(如ADMET、毒性评估),支持传统机器学习或图神经网络,尤其适合需要丰富特征化选项和MoleculeNet基准测试的场景。最适合利用预训练模型和多种分子表征进行快速实验。若需优先处理图结构的PyTorch工作流,推荐使用torchdrug;若需基准数据集,推荐使用pytdc。
分类
AI 技能开发安装
热度:21
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-deepchem&locale=zh&source=copy
DeepChem - 分子机器学习与药物发现 Python 库
技能概述
DeepChem 是一个专为化学、材料科学和生物学设计的 Python 机器学习库,提供分子数据加载、特征化、图神经网络和预训练模型,用于分子属性预测和药物发现。
适用场景
1. 分子属性预测
当需要预测分子的理化性质或生物活性时,例如溶解度、毒性、结合亲和力或 ADMET 性质。DeepChem 提供 30+ MoleculeNet 基准数据集和多种模型选择,从随机森林到图神经网络。
2. 药物发现与筛选
适用于药物研发中的先导化合物筛选、活性预测和毒性评估。支持基于分子骨架的数据划分(Scaffold Splitter),避免相似分子在训练和测试集间泄漏,确保模型评估可靠性。
3. 小样本迁移学习
当实验数据量有限(<1000 样本)时,可使用 ChemBERTa、GROVER、MolFormer 等预训练模型进行微调,获得比从头训练更好的预测性能。
核心功能
分子数据加载与特征化
支持多种化学数据格式(SMILES、SDF、FASTA),提供 20+ 种特征化方法:分子指纹(ECFP)、描述符、图表示、3D 结构等。根据模型类型自动推荐合适的特征化方案。
图神经网络模型
内置 GCN、GAT、MPNN、AttentiveFP 等图神经网络架构,专为分子结构设计。配合 MolGraphConvFeaturizer 或 DMPNNFeaturizer,可端到端学习分子表示。
MoleculeNet 基准测试
一键加载 Tox21、BBBP、Delaney、QM9 等 30+ 标准基准数据集,提供标准化的训练/验证/测试划分和评估指标,方便模型对比和性能基准测试。
常见问题
DeepChem 适合初学者使用吗?
适合。DeepChem 提供 MoleculeNet 预置数据集和简洁 API,可快速开始分子机器学习实验。建议从随机森林 + 分子指纹的简单组合入手,再逐步尝试深度学习模型。
小数据集应该选择什么模型?
对于 <1000 样本的数据集,推荐使用迁移学习(ChemBERTa 或 GROVER)预训练模型微调,或使用传统的随机森林/XGBoost 配合分子指纹。深度学习模型在小数据集上容易过拟合。
DeepChem 和 torchdrug 有什么区别?
DeepChem 优势在于多样化的特征化方法和丰富的预置数据集(MoleculeNet),适合快速实验和传统 ML 工作流。torchdrug 更专注于 PyTorch 图神经网络,适合需要高度定制化的图模型研究。