单链聚类(Single-Linkage Clustering)是一种基于距离的聚类算法,它是层次聚类方法中的一种。在这种聚类方法中,两个数据点之间的距离是由它们最近共同祖先的距离来决定的。具体来说,单链聚类的核心思想是:
1. 初始化:将每个数据点视为一个单独的簇。
2. 迭代合并:在每一轮迭代中,找到距离最近的两个簇,并将它们合并成一个簇。
3. 距离计算:在合并过程中,使用最近共同祖先的距离来计算两个簇之间的距离。具体来说,对于两个簇A和B,它们的距离是A中所有点到B中最近点的距离的最小值。
4. 重复:重复步骤2和3,直到所有的数据点都合并成一个簇。
单链聚类的优点是简单易实现,但它的一个主要缺点是它对噪声和异常值非常敏感,因为这种算法倾向于形成“长而细”的簇,这意味着它可能会将远离其他点的点错误地归类到簇中。
在单链聚类中,簇的合并过程可以形成一个树形结构,称为谱系树(Dendrogram)。这个树展示了簇是如何一步步合并的,以及每个簇的祖先簇。
总结来说,单链聚类是一种基于最小距离的聚类方法,它通过迭代地将距离最近的簇合并来形成最终的聚类结果。