聚类分析是一种数据贵呀技术, 旨在揭露数据集中观测值的子集. 它可以把大量的观测值归为若干个类. 这里的类被定义为若干个观测值组成的群组, 群组内观测值的相似度比群间的相似度高. 这不是一个精确的定义, 从而导致了各种聚类方法的出现.
最常用的两种聚类方法是层次聚类 (hierarchical agglomerative clustering) 和划分聚类(partitioning clustering). 在层次聚类中, 每一个观测值自成一类, 这些类两两合并, 直到所有的类被聚成一类为止. 在划分聚类中, 首先定义指定类的个数 K, 然后观测值被随机分成 K 类, 再重新形成聚合的类
聚类分析的一般步骤:
1选择合适的变量
2缩放数据
3寻找异常点
4计算距离: 最常用的距离量度是欧几里得距离
5选择聚类算法
6获得一种或者多种聚类方法
7确定类的数目
8获得最终的聚类解决方案
9结果可视化
10解读类
11验证结果: 如果采用不同的聚类方法或者不同的样本是否产生相同的类 / fpc,clv 和 clvalid 包含了评估聚类解的稳定性的函数
kmeans 聚类分析
层次性聚类分析
选择最佳的聚类个数
来源: http://www.jianshu.com/p/18f14b6774f9