概述:
KMEANS 算法又被成为 K 均值算法, 是一种常用的聚类算法, 由于不需要根据给定的训练集训练模型因此是一种无监督学习算法. 其本质是根据选定的参数 K 将数据分类成 K 类, 在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类.
算法原理:
1, 以下图样本散点图展示数据集的整体分布情况
2,K 值是 KMEANS 最重要的选择参数, 直接决定着数据聚类的类别数量, 在选择 K 值后, 会在数据中随机选择 K 个数据样本最为初始中心点, 如 K=3, 则结果如下图所示
3, 计算和中心点距离最近的点, 将其归入同类
4, 每个类别当有了两个以上的数据时, 类的中心就会发生变化, 因此类中一旦有新的数据被划入时就需要重新计算整个类的中心点, 这一步的计算也是整个算法的核心, 所以称为 K 均值算法
5, 通过几步计算之后的结果, 能够更直观的
来源: https://yq.aliyun.com/articles/722900