umap-learn
UMAP降维技术。针对高维数据,实现快速非线性流形学习,适用于2D/3D可视化、聚类预处理(如HDBSCAN),以及监督式/参数化UMAP分析。
分类
AI 技能开发安装
热度:12
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-umap-learn&locale=zh&source=copy
UMAP-Learn 降维算法技能
技能概述
UMAP-Learn 提供 UMAP (Uniform Manifold Approximation and Projection) 降维算法的完整实现,用于高维数据的快速非线性降维、可视化和嵌入生成,可作为 t-SNE 的替代方案用于数据可视化和机器学习预处理。
适用场景
1. 高维数据可视化
将高维数据(如基因表达数据、文本向量、图像特征)降维到 2D 或 3D 空间进行可视化探索,帮助发现数据中的聚类模式、异常值和潜在结构。相比 t-SNE,UMAP 运行速度更快且能更好地保留全局结构。
2. 聚类分析预处理
作为密度聚类算法(如 HDBSCAN)的预处理步骤,克服高维空间中的"维度灾难"问题。通过降维使数据点在低维空间中的密度分布更加清晰,从而提高聚类效果。
3. 机器学习特征工程
将高维特征降维到 10-50 维作为下游机器学习模型的输入特征,减少计算开销和过拟合风险,同时保留数据的主要结构信息。适用于监督学习和半监督学习场景。
核心功能
1. 快速非线性降维
基于流形学习理论的高效降维算法,支持多种距离度量(欧氏距离、余弦相似度等),可通过 n_neighbors、min_dist、n_components 等参数灵活控制降维效果。兼容 scikit-learn API,支持 fit_transform 和 transform 方法。
2. 监督与半监督降维
支持在降维过程中利用标签信息(supervised UMAP),实现类间分离的同时保持类内结构。适用于有标签数据的特征提取和半监督学习场景,可通过 y 参数传入标签进行引导降维。
3. 参数化 UMAP 扩展
提供 Parametric UMAP 变体,使用神经网络学习编码器-解码器映射函数,支持对新数据的高效变换和逆变换。适用于需要频繁处理新数据或进行数据重构的应用场景。
常见问题
UMAP 和 t-SNE 有什么区别?应该选择哪个?
UMAP 和 t-SNE 都是非线性降维算法,但有几个关键区别:速度 - UMAP 通常比 t-SNE 快很多,尤其在大型数据集上;全局结构 - UMAP 更好地保留数据的全局拓扑结构,而 t-SNE 更关注局部邻域关系;可扩展性 - UMAP 支持变换新数据(transform 方法),t-SNE 通常需要重新运行;参数控制 - UMAP 提供更多可调参数(n_neighbors、min_dist)来控制输出结果。
选择建议:如果需要快速处理大数据集或保留全局结构,选择 UMAP;如果主要关注局部聚类细节且数据量不大,t-SNE 也是不错的选择。大多数情况下,UMAP 是更好的默认选择。
UMAP 的 n_neighbors 和 min_dist 参数如何设置?
n_neighbors 控制局部与全局结构的平衡:小值(2-5)强调局部细节但可能导致碎片化;大值(50-200)强调全局结构但丢失细节。默认值 15 是一个平衡起点。min_dist 控制输出空间中点的紧密程度:小值(0.0-0.1)产生紧密的聚类,适合聚类分析;大值(0.5-0.99)使点更分散,适合可视化探索。
针对不同任务的推荐设置:可视化 - n_neighbors=15, min_dist=0.1;聚类预处理 - n_neighbors=30, min_dist=0.0, n_components=5-10;保留全局结构 - n_neighbors=100, min_dist=0.5;文档嵌入 - n_neighbors=15, min_dist=0.1, metric='cosine'。
使用 UMAP 前需要对数据进行预处理吗?
强烈建议在使用 UMAP 前对数据进行标准化(StandardScaler 或类似方法)。因为 UMAP 使用距离度量计算相似度,如果特征的尺度差异很大,大尺度特征会主导距离计算,导致降维结果失真。标准化可以确保所有特征对距离计算有相等的贡献。
此外,还需注意:确保数据中没有缺失值或异常值;对于分类变量,考虑进行适当的编码;对于文本数据,通常先进行向量化(如 TF-IDF 或嵌入模型);使用监督 UMAP 时,确保标签编码正确(-1 表示未标记样本)。正确的预处理是获得良好降维结果的关键。