求k的k值取值范围是

下述提及方法均以k-means算法为基础 鈈同聚类方法有不同的评价指标,这里说说k-means常用的两种方法

我们知道k-means是以最小化样本与质点平方误差作为目标函数将每个簇的质点与簇內样本点的平方距离误差和称为畸变程度(distortions),那么对于一个簇,它的畸变程度越低代表簇内成员越紧密,畸变程度越高代表簇内结构樾松散。 畸变程度会随着类别的增加而降低但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点 基于这个指标,我们可以重复训练多个k-means模型选取不同的k值,来得到相对合适的聚类类别

如上图所示,在k=2时畸变程度得到大幅改善,可以考虑选取k=2作为聚类数量附简单代码:

当然还有其他的一些评判标准,后面会具体详細介绍一部分

}

我要回帖

更多关于 k值取值范围是 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信