Scikit-learn

Scikit-learn - Python 机器学习技能指南

使用 scikit-learn 技能，您可以快速掌握 Python 中最流行的机器学习库，完成分类、回归、聚类、降维、数据预处理和模型评估等核心机器学习任务。

当您需要预测离散类别（如垃圾邮件检测、客户流失预测）或连续值（如房价预测、销量预估）时，该技能提供从数据处理到模型训练的完整指导，涵盖逻辑回归、随机森林、支持向量机等经典算法。

在探索性数据分析中，需要对客户进行分群、发现数据中的隐藏模式或降低特征维度时，该技能提供 K-Means、DBSCAN、PCA、t-SNE 等无监督学习方法的完整参考。

当您需要将机器学习模型部署到生产环境时，该技能教授如何使用 Pipeline 和 ColumnTransformer 构建可复现、可维护的 ML 工作流，避免数据泄漏，确保模型一致性。

提供 40+ 种分类和回归算法，包括线性模型、决策树、集成方法、支持向量机和神经网络等，帮助您根据任务特点选择最合适的算法，并通过交叉验证和超参数调优优化模型性能。

完整的工具链用于数据清洗和特征转换，包括缺失值填充、特征缩放、类别编码、特征选择和多项式特征生成，支持混合数据类型的自动化处理流程。

提供多种交叉验证策略（KFold、StratifiedKFold、TimeSeriesSplit）和调优方法（GridSearchCV、RandomizedSearchCV），以及分类、回归、聚类的全面评估指标，帮助您客观比较模型性能并找到最优参数组合。

scikit-learn 专注于传统机器学习任务，特别适合处理表格数据（结构化数据）。如果您需要做分类、回归、聚类、降维或特征工程，scikit-learn 是理想选择。对于图像识别、自然语言处理等深度学习任务，建议使用 TensorFlow 或 PyTorch。

scikit-learn 是传统机器学习库，擅长处理表格数据，算法可解释性强，训练速度快；TensorFlow 是深度学习框架，适合处理图像、文本等非结构化数据。很多项目会同时使用两者——用 scikit-learn 做特征工程和预处理，用 TensorFlow 训练深度模型。

该技能提供了全面的评估方法：对于分类任务，使用准确率、精确率、召回率、F1-score 和 ROC AUC；对于回归任务，使用 MSE、RMSE、MAE 和 R²；对于聚类，使用轮廓系数和 Calinski-Harabasz 指数。重要的是使用交叉验证在训练集上评估，最后在独立的测试集上验证。