sklearn KMeans 聚类评估实战：Seeds 数据集 3 指标对比与可视化

发布时间：2026/7/5 1:38:59

基于Seeds数据集的KMeans聚类三维评估体系构建与决策优化在数据分析领域聚类算法的效果评估一直是实践中的核心挑战。当面对Seeds这类经典数据集时如何系统评估KMeans的聚类质量并基于多维度指标做出最佳参数决策成为数据科学家必须掌握的实战技能。本文将构建一个包含轮廓系数、Calinski-Harabasz指数和FMI评价法的三维评估体系通过可视化对比和量化分析揭示不同评估指标的内在关联与决策逻辑。1. 数据理解与预处理策略Seeds数据集包含210个小麦种子样本每个样本有7个形态学特征区域(area)、周长(perimeter)、压实度(compactness)、籽粒长度(kernel_length)、籽粒宽度(kernel_width)、不对称系数(asymmetry_coeff)和籽粒腹沟长度(groove_length)。这些特征都来自三个不同品种的小麦Kama、Rosa和Canadian。数据标准化是聚类前的关键步骤。由于各特征的量纲差异显著如周长单位是毫米而压实度是无量纲比值我们使用MinMaxScaler进行归一化from sklearn.preprocessing import MinMaxScaler import pandas as pd # 数据加载与预处理 seeds_data pd.read_csv(seeds.csv, headerNone) features seeds_data.iloc[:, :7] labels seeds_data.iloc[:, 7] # Min-Max标准化 scaler MinMaxScaler() normalized_features scaler.fit_transform(features)注意虽然原始数据包含标签但聚类作为无监督学习仅在最终评估阶段才会使用标签信息。预处理阶段应保持无监督原则。特征间的相关性分析也至关重要。通过热力图可以发现籽粒长度与宽度呈现强正相关相关系数0.96这提示我们可能需要关注特征间的多重共线性问题特征对相关系数长度 vs 宽度0.96区域 vs 周长0.94压实度 vs 不对称度-0.632. 多维度评估指标体系构建2.1 轮廓系数样本层面的聚类紧密度轮廓系数衡量的是每个样本与同簇其他样本的相似度a和与最近其他簇样本的相似度b的相对关系$$ s \frac{b - a}{\max(a, b)} $$在Python中实现轮廓系数评估from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt silhouette_scores [] k_range range(2, 10) for k in k_range: kmeans KMeans(n_clustersk, random_state42) cluster_labels kmeans.fit_predict(normalized_features) silhouette_avg silhouette_score(normalized_features, cluster_labels) silhouette_scores.append(silhouette_avg) plt.plot(k_range, silhouette_scores, markero) plt.xlabel(Number of clusters) plt.ylabel(Silhouette Score) plt.axvline(x3, colorr, linestyle--) plt.show()典型输出结果显示当k3时轮廓系数达到峰值0.53这与数据集的真实类别数一致。当k2时得分为0.48而k4时降至0.45表明3个簇的结构最优。2.2 Calinski-Harabasz指数簇间分离度Calinski-Harabasz指数通过计算簇间离散度与簇内离散度的比值来评估聚类质量$$ CH \frac{tr(B_k)}{tr(W_k)} \times \frac{N - k}{k - 1} $$其中$B_k$是簇间协方差矩阵$W_k$是簇内协方差矩阵$N$是样本总数。实现代码如下from sklearn.metrics import calinski_harabasz_score ch_scores [] for k in k_range: kmeans KMeans(n_clustersk, random_state42) cluster_labels kmeans.fit_predict(normalized_features) ch_score calinski_harabasz_score(normalized_features, cluster_labels) ch_scores.append(ch_score) plt.plot(k_range, ch_scores, markero) plt.xlabel(Number of clusters) plt.ylabel(Calinski-Harabasz Score) plt.axvline(x3, colorr, linestyle--)该指标在k3时达到最大值约320之后随k增加而下降再次确认3是最佳簇数选择。2.3 FMI有监督的聚类一致性Fowlkes-Mallows Index(FMI)需要真实标签作为参照衡量聚类结果与真实分类的一致性from sklearn.metrics import fowlkes_mallows_score fmi_scores [] for k in k_range: kmeans KMeans(n_clustersk, random_state42) cluster_labels kmeans.fit_predict(normalized_features) fmi fowlkes_mallows_score(labels, cluster_labels) fmi_scores.append(fmi) plt.plot(k_range, fmi_scores, markero) plt.xlabel(Number of clusters) plt.ylabel(Fowlkes-Mallows Score) plt.axvline(x3, colorr, linestyle--)FMI在k3时达到0.88的最高值显著高于k2时的0.75和k4时的0.79为最佳簇数选择提供了第三个证据。3. 评估结果可视化与对比分析将三种评估指标标准化后绘制在同一坐标系中可以更直观地比较它们的变化趋势from sklearn.preprocessing import MinMaxScaler # 标准化评分 scaler MinMaxScaler() scores_matrix np.array([silhouette_scores, ch_scores, fmi_scores]).T normalized_scores scaler.fit_transform(scores_matrix) # 绘制对比图 plt.figure(figsize(10,6)) plt.plot(k_range, normalized_scores[:,0], labelSilhouette, markero) plt.plot(k_range, normalized_scores[:,1], labelCalinski-Harabasz, markers) plt.plot(k_range, normalized_scores[:,2], labelFMI, marker^) plt.legend() plt.xlabel(Number of clusters) plt.ylabel(Normalized Score) plt.axvline(x3, colork, linestyle--) plt.title(Three Metrics Comparison)从对比图中可以观察到所有指标在k3时均达到或接近峰值k3时各指标普遍下降说明过度聚类会降低质量轮廓系数对k变化最敏感而FMI最稳定4. 决策逻辑与最佳实践基于多指标评估我们建立以下决策流程初步筛选选择所有指标均表现良好的k值范围本例中k2-4权重分配根据业务需求确定指标权重。若无先验知识可采用均等权重综合评分计算加权平均得分 $S 0.4 \times Silhouette 0.3 \times CH 0.3 \times FMI$最终确认选择综合得分最高的k值并验证其与业务逻辑的一致性对于Seeds数据集k3的综合得分计算如下指标k2k3k4轮廓系数(0.4)0.480.530.45CH指数(0.3)180320280FMI(0.3)0.750.880.79综合得分0.680.850.73在实际项目中还需考虑以下实践要点多次运行取平均值以避免初始质心敏感性问题结合降维可视化如t-SNE进行人工验证记录不同k值下的模型参数和评估结果形成决策日志通过这套方法论我们不仅确定了Seeds数据集的最佳聚类数量更建立了一个可复用的聚类评估框架。当处理新的聚类任务时只需调整指标权重和k值范围即可快速获得科学可靠的评估结果。

资讯详情

sklearn KMeans 聚类评估实战：Seeds 数据集 3 指标对比与可视化

相关新闻

剖析STM32F10xxx系列单片机时钟树

【PyTorch】Tensor核心操作与内存优化实战指南

基于YOLOv8的手势识别系统：从数据准备到实时部署全流程实战

Iran began a mass funeral for late Supreme Leader Ayatollah Ali Khamenei

2026八字排盘结果导出工具怎么选：看格式留存、复盘记录和隐私边界

从零实现一个数据压缩库：Huffman编码与LZ77

南京净化车间口碑好的企业

Docker Buildx命令介绍（官方提供的新一代镜像构建工具，基于BuildKit构建引擎）Builder实例、Buildx驱动类型

完美搞定，2026 一键批量下载备份知乎回答/文章/想法/专栏/收藏夹，导出txt，word，html和pdf

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

GPT-5.5与DeepSeek V4选型指南：Agentic Coding与1M上下文的工程落地

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

GPT-5.5与DeepSeek V4选型指南：Agentic Coding与1M上下文的工程落地

基于Dify与DeepSeek构建私有知识库问答系统实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

DesktopNaotu：你的终极离线思维导图解决方案，告别网络依赖！