matchms
光谱相似性与代谢组学中的化合物鉴定。用于比较质谱图,计算相似性得分(余弦相似度、修正余弦相似度),以及从光谱库中识别未知化合物。最适用于代谢物鉴定、光谱匹配和库搜索。如需完整的LC-MS/MS蛋白质组学流程,请使用pyopenms。
分类
其他工具安装
热度:5
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-matchms&locale=zh&source=copy
Matchms - 质谱相似性与代谢物鉴定工具
技能概述
Matchms 是一个用于质谱数据处理和光谱相似性分析的开源 Python 库,支持从多种格式导入质谱数据、计算相似性得分、进行光谱库匹配和未知化合物鉴定。
适用场景
1. 代谢物鉴定与光谱匹配
当您需要从质谱数据中鉴定未知代谢物时,Matchms 可以将您的光谱与参考库进行比对,通过余弦相似度、修饰余弦相似度等算法计算匹配得分,快速找到最相似的已知化合物。支持 GNPS 格式库搜索,适用于代谢组学研究和药物发现。
2. 质谱数据预处理与质量控制
在进行质谱分析前,需要对原始数据进行清洗和标准化。Matchms 提供 40+ 种过滤器,可用于峰强度归一化、元数据标准化、前体离子去除、最低峰数要求等质量控制步骤,确保下游分析的数据质量。
3. 大规模光谱相似性比较
需要处理大量质谱样本时,Matchms 支持批量计算相似性矩阵,可用于光谱聚类、网络分析和样本间关系探索。可构建可重复的多步处理管道,适用于自动化分析流程。
核心功能
1. 多格式质谱数据导入导出
支持 mzML、mzXML、MGF、MSP、JSON 等主流质谱格式,可从原始仪器数据或 GNPS 等光谱库导入数据,处理结果可导出为标准格式。这意味着无论您的数据来源如何,都可以用 Matchms 进行统一处理。
2. 多种相似性计算算法
提供 CosineGreedy(快速余弦相似度)、ModifiedCosine(考虑前体质量差异)、NeutralLossesCosine(中性丢失模式)、FingerprintSimilarity(分子指纹)等多种相似性函数,可根据具体分析需求选择最合适的算法。
3. 可定制的光谱处理管道
通过 SpectrumProcessor 可组合多个过滤步骤,构建可重复的分析工作流。从元数据标准化、峰过滤到相似性计算,整个流程可保存和复用,确保分析的一致性和可追溯性。
常见问题
Matchms 与 pyopenms 应该如何选择?
两者定位不同:Matchms 专注于光谱相似性和代谢物鉴定,适合光谱库匹配和化合物识别;pyopenms 是完整的 LC-MS/MS 蛋白质组学管道,覆盖更广泛的质谱分析功能。如果只需要光谱比较和库搜索,Matchms 更轻量易用。
支持哪些质谱文件格式?
Matchms 支持 mzML、mzXML(原始质谱格式)、MGF(Mascot 通用格式)、MSP(光谱库格式)、JSON(GNPS 兼容)、USI 引用等多种格式,基本覆盖常见的质谱数据交换格式。
如何处理需要分子结构信息的分析?
安装 matchms 的 chemistry 扩展即可支持 SMILES、InChI 等分子结构处理:
uv pip install matchms[chemistry]。安装后可使用分子指纹相似性、化学信息推导等功能。