rdkit
用于精细分子控制的化学信息学工具包。支持SMILES/SDF解析、分子描述符计算(分子量、LogP、拓扑极性表面积)、分子指纹生成、子结构搜索、2D/3D结构生成、相似性比对及反应处理。若需简化界面的标准化工作流程,推荐使用datamol(基于RDKit的封装工具)。如需高级控制、自定义分子净化或专用算法,请直接使用rdkit。
分类
开发工具安装
热度:3
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-rdkit&locale=zh&source=copy
RDKit 化学信息学工具包 - Python 分子分析与药物发现
技能概述
RDKit 是一个开源的化学信息学工具包,提供 Python API 用于分子结构解析、性质计算、相似性分析和化学反应处理。支持 SMILES、SDF、MOL 等多种分子格式,适用于药物发现、计算化学和化合物库分析。
适用场景
1. 药物发现与虚拟筛选
在药物研发早期阶段,使用 RDKit 对化合物库进行大规模筛选。通过分子指纹和相似性搜索,快速识别与先导化合物相似的候选分子。结合 Lipinski 规则五等类药性分析,过滤掉不符合药物特性的化合物,降低后续实验成本。
2. 分子性质计算与描述符分析
计算 200+ 种分子描述符,包括分子量、LogP、TPSA、氢键供体/受体数量等关键性质。支持批量处理,可同时分析数千个化合物,用于构效关系研究、ADMET 性质预测和分子优化决策。
3. 化学反应与结构转换
使用 SMARTS 模式定义和执行化学反应,支持原子映射和手性保留。可用于反应产物预测、反应路径分析、衍生物库生成。结合子结构搜索和分子替换功能,快速设计新的分子结构。
核心功能
1. 多格式分子 I/O 与解析
支持 SMILES、SDF、MOL、InChI 等主流化学文件格式的读写。提供批量处理和流式处理能力,可高效处理大型化合物库。内置分子验证和标准化功能,自动处理芳香性感知、价态检查等问题。
2. 分子指纹与相似性分析
提供多种指纹算法:RDKit 拓扑指纹、Morgan 指纹(ECFP)、MACCS keys(166 位)等。支持 Tanimoto、Dice、Cosine 等相似性度量,可用于化合物聚类、多样性分析和虚拟筛选。
3. 3D 构象生成与可视化
使用 ETKDG 算法生成 3D 分子坐标,支持 UFF/MMFF 力场优化。可生成多个构象进行构象分析。内置高质量分子绘图功能,支持子结构高亮和 Jupyter Notebook 集成。
常见问题
RDKit 是什么?适合什么人使用?
RDKit 是一个开源的化学信息学和计算化学库,主要面向药物研发人员、计算化学家、化学信息学研究人员和数据科学家。如果你需要处理分子结构、计算分子性质或进行化合物筛选,RDKit 是最常用的 Python 工具之一。
RDKit 和 datamol 应该选哪个?
如果你的需求是标准的分子处理流程(读取分子、计算描述符、画图),datamol 提供了更简洁的 API,上手更快。如果你需要精细控制分子处理过程、自定义标准化规则或使用特殊算法,直接使用 RDKit 会更合适。datamol 本质上是 RDKit 的封装。
RDKit 支持哪些分子文件格式?
RDKit 支持 SMILES、SMARTS、SDF(结构数据文件)、MOL、MOL2、InChI、PDB 等主流化学格式。可以读写单个分子或批量处理,支持 gzip 压缩文件。对于非常大的文件,可以使用 ForwardSDMolSupplier 进行流式处理,避免内存溢出。
RDKit 可以免费用于商业项目吗?
可以。RDKit 采用 BSD-3-Clause 许可证,允许免费用于商业和学术项目,无需特殊授权。这意味着你可以在制药公司的内部项目、商业软件或付费服务中使用 RDKit。
如何判断一个化合物的类药性?
RDKit 可以快速计算 Lipinski 规则五的五个参数:分子量 ≤ 500、LogP ≤ 5、氢键供体 ≤ 5、氢键受体 ≤ 10。同时可以计算 TPSA(拓扑极性表面积)、可旋转键数量等补充指标。这些指标可以帮助初步评估化合物的口服吸收潜力。