• 微信公众号:美女很有趣。 工作之余,放松一下,关注即送10G+美女照片!

聚类分析(一):相似性度量

开发技术 开发技术 1周前 (04-07) 4次浏览

1.欧式距离

   衡量样本间相似性和差异性的方法就是计算两个样本之间的距离。
   对于距离,我们最熟悉的莫过于欧式距离,设(a=(x_1,x_2,cdots,x_n),b=(y_1,y_2,cdots,y_n)),那么(a)(b)的欧式距离定义为:

[ d(a,b)=sqrt{sum_{i=1}^n(x_i-y_i)^2} tag{1}
]

   欧式距离有许多缺点,比如会受到距离单位的影响。针对这些影响,在计算距离之前需要对数据进行标准化,假设有(m)个样本 依次为(x^{(1)},x^{(2)},cdots,x^{(m)});每个样本有n个特征:(x^{(j)}=(x_1^{(j)},x_2^{(j)},cdots,x_n^{(j)}))。那么第(k)个特征的样本均值,样本标准差可表示为:

[bar{X}_k=frac{1}{m}sum_{i=1}^mx^{(i)}_k tag{2}
]

[S_k=[frac{1}{m-1}sum_{i=1}^m(x^{(i)}_k-bar{X}_k)^2]^{1/2} tag{3}
]

对于每个数据可以进行标准化处理:

[y_k^{(i)}=frac{x_k^{(i)}-bar{X}_k}{S_k} tag{4}
]

2.马氏距离

   马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。(百度抄的)
   马氏距离的定义:
设总体(G)的均值向量为(mu),协方差矩阵为(Sigma),(X),(Y)为总体中的两个样本。
(X)(Y)的距离定义为

[d_m^2(X,Y)=(X-Y)^TSigma^{-1}(X-Y). tag{5}
]

(X)和总体(G)的距离定义为

[d_m^2(X,G)=(X-mu)^TSigma^{-1}(X-mu) tag{6}
]

3.指标距离

   y有时不仅需要对样品进行分类,也需要对指标进行分类。衡量指标距离常用到的是相似系数,用(C_{ij})表示指标(i)和指标(j)的相似系数,(C_{ij})的绝对值趋向于0时,表示指标关系越疏远,(C_{ij})的绝对值趋向于1时,表示指标关系越密切。常用到的相似系数有夹角余弦和相关系数。

(1)夹角余弦

从几何图形中的启发而来,定义为:

[C_{ij}(1)=frac{sum_{k=1}^mx_i^{(k)}x_j^{(k)}}{[sum_{k=1}^m(x_i^{(k)})^2sum_{k=1}^m(x_j^{(k)})^2]^{1/2}}tag{7}
]

(2) 相关系数

相关系数可以理解为数据标准化后的夹角余弦。

[C_{ij}(2)=frac{sum_{k=1}^m(x_i^{(k)}-bar{X}_i)(x_j^{(k)}-bar{X}_j)}{[sum_{k=1}^m(x_i^{(k)}-bar{X}_i)^2sum_{k=1}^m(x_j^{(k)}-bar{X}_j)^2]^{1/2}}tag{8}
]


程序员灯塔
转载请注明原文链接:聚类分析(一):相似性度量
喜欢 (0)