imaging-data-commons
使用 idc-index 查询并下载 NCI 影像数据公共库中的公开癌症影像数据。该工具支持访问大规模放射学(CT、MR、PET)及病理学数据集,适用于人工智能训练或研究。无需身份验证,可通过元数据查询、浏览器内可视化浏览,并检查数据使用许可。
分类
AI 技能开发安装
热度:18
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-imaging-data-commons&locale=zh&source=copy
Imaging Data Commons:免费癌症影像数据查询与下载
技能概述
Imaging Data Commons(IDC)是美国国家癌症研究所(NCI)维护的公开癌症影像数据库,通过 idc-index Python 包可免费查询和下载 CT、MRI、PET 等放射学数据以及病理学切片数据,无需任何认证。
适用场景
1. 医学 AI 模型训练
为深度学习项目获取大规模标注或未标注的医学影像数据集。支持按癌症类型、影像模态(CT/MR/PET)、检查部位等条件筛选,可下载用于分类、分割、检测等任务的训练数据。
2. 医学影像研究
研究人员可获取标准化的 DICOM 格式影像数据,用于图像处理算法开发、影像组学研究、多中心分析等。数据包含完整的元数据和临床信息(部分集合),支持与临床数据关联分析。
3. 数据快速预览与筛选
在批量下载前,可使用浏览器可视化工具预览影像序列,避免下载不符合要求的数据。支持通过 SQL 查询灵活筛选,估算下载大小,检查数据许可证类型。
核心功能
1. SQL 元数据查询
使用标准 SQL 语法查询 IDC 索引表,支持按集合(collection_id)、患者、研究、序列等维度过滤。可获取影像模态、检查部位、设备厂商、研究日期等元数据字段,支持 JOIN 多表查询以获取癌症类型、分析结果等扩展信息。
2. 批量 DICOM 下载
指定 collection_id、PatientID、StudyInstanceUID 或 SeriesInstanceUID 批量下载 DICOM 文件。支持自定义目录结构模板,可分批下载大规模数据集,自动从 AWS S3 或 Google Cloud Storage 公开存储桶获取文件。
3. 浏览器可视化与许可证检查
生成 OHIF 或 SLIM 查看器链接,直接在浏览器中预览影像无需下载。查询每条数据的许可证类型(CC BY 4.0 允许商用,CC BY-NC 限制商用),自动生成符合学术规范的引用格式。
常见问题
Imaging Data Commons 数据完全免费吗?可以用于商业项目吗?
IDC 数据访问完全免费,无需注册。但使用时必须遵守各数据集的许可证条款。约 97% 的数据采用 CC BY 许可证,允许商业使用(需署名);约 3% 采用 CC BY-NC 许可证,禁止商业用途。使用前务必用
license_short_name 字段确认许可证类型。如何找到特定癌症类型(如肺癌)的影像数据?
癌症类型信息存储在
collections_index 表中,需要先执行 client.fetch_index("collections_index"),然后 JOIN 查询:SELECT i.* FROM index i JOIN collections_index c ON i.collection_id = c.collection_id WHERE c.CancerTypes LIKE '%Lung%' AND i.Modality = 'CT'。下载的 DICOM 文件如何用 Python 处理?
可使用 pydicom 库读取:
import pydicom; ds = pydicom.dcmread('file.dcm'); image = ds.pixel_array。对于 CT/MRI 等序列,可按 ImagePositionPatient 排序后堆叠为 3D 数组,或使用 SimpleITK 的 ImageSeriesReader 直接读取完整序列。IDC 和 TCIA 有什么区别?
TCIA(The Cancer Imaging Archive)是 IDC 的前身,IDC 是 NCI 在 TCIA 基础上升级的新平台,提供更现代的 API(idc-index、BigQuery、DICOMweb)、云存储直接访问和更好的元数据索引。TCIA 数据已迁移至 IDC,建议新项目使用 IDC。