scikit-learn
Python机器学习库scikit-learn。适用于监督学习(分类、回归)、无监督学习(聚类、降维)、模型评估、超参数调优、数据预处理及构建机器学习流水线等场景。提供涵盖算法、预处理技术、流水线设计与最佳实践的完整参考文档。
分类
AI 技能开发安装
热度:19
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-scikit-learn&locale=zh&source=copy
Scikit-learn - Python 机器学习技能指南
技能概述
使用 scikit-learn 技能,您可以快速掌握 Python 中最流行的机器学习库,完成分类、回归、聚类、降维、数据预处理和模型评估等核心机器学习任务。
适用场景
1. 构建分类和回归模型
当您需要预测离散类别(如垃圾邮件检测、客户流失预测)或连续值(如房价预测、销量预估)时,该技能提供从数据处理到模型训练的完整指导,涵盖逻辑回归、随机森林、支持向量机等经典算法。
2. 数据聚类与降维分析
在探索性数据分析中,需要对客户进行分群、发现数据中的隐藏模式或降低特征维度时,该技能提供 K-Means、DBSCAN、PCA、t-SNE 等无监督学习方法的完整参考。
3. 生产级机器学习管道构建
当您需要将机器学习模型部署到生产环境时,该技能教授如何使用 Pipeline 和 ColumnTransformer 构建可复现、可维护的 ML 工作流,避免数据泄漏,确保模型一致性。
核心功能
1. 监督学习算法库
提供 40+ 种分类和回归算法,包括线性模型、决策树、集成方法、支持向量机和神经网络等,帮助您根据任务特点选择最合适的算法,并通过交叉验证和超参数调优优化模型性能。
2. 数据预处理与特征工程
完整的工具链用于数据清洗和特征转换,包括缺失值填充、特征缩放、类别编码、特征选择和多项式特征生成,支持混合数据类型的自动化处理流程。
3. 模型评估与超参数调优
提供多种交叉验证策略(KFold、StratifiedKFold、TimeSeriesSplit)和调优方法(GridSearchCV、RandomizedSearchCV),以及分类、回归、聚类的全面评估指标,帮助您客观比较模型性能并找到最优参数组合。
常见问题
scikit-learn 适合什么类型的机器学习任务?
scikit-learn 专注于传统机器学习任务,特别适合处理表格数据(结构化数据)。如果您需要做分类、回归、聚类、降维或特征工程,scikit-learn 是理想选择。对于图像识别、自然语言处理等深度学习任务,建议使用 TensorFlow 或 PyTorch。
scikit-learn 和 TensorFlow 有什么区别?
scikit-learn 是传统机器学习库,擅长处理表格数据,算法可解释性强,训练速度快;TensorFlow 是深度学习框架,适合处理图像、文本等非结构化数据。很多项目会同时使用两者——用 scikit-learn 做特征工程和预处理,用 TensorFlow 训练深度模型。
如何评估机器学习模型的性能?
该技能提供了全面的评估方法:对于分类任务,使用准确率、精确率、召回率、F1-score 和 ROC AUC;对于回归任务,使用 MSE、RMSE、MAE 和 R²;对于聚类,使用轮廓系数和 Calinski-Harabasz 指数。重要的是使用交叉验证在训练集上评估,最后在独立的测试集上验证。