Clustering – Partitioning Methods - 一个摸鱼的地方

4_1_Partitioning_Methods

Clustering – Partitioning Methods定义Partitioning method形心 centroid of a clusterK-mean符号规定算法分析k-MedianSilhouette-CoefficientEvaluatingReference

划分方法是一种聚类算法，可以用来为大数据洞察数据的分布，做自动归类等作用。

定义

Partitioning method

$n$ $k\leq n$ 。

$k$ 个组，并且使得每个组至少包含一个对象。最典型的例子是互斥的簇划分 (exclusive cluster separation)。在这种方法下，我们要求每个对象必须恰好属于一个组。

划分方法的一个准则是(或者判断一个划分是否是一个好的划分的标准是)：同一个簇中的对象尽可能相关，不同簇的对象尽可能无关。

基于划分的聚类可能是效率低下的，因为遍历所有的项通常很慢。可以使用启发式算法来提升效率。

目前流行的启发式算法过程如下：

$k$ 个代表，可以随机挑选或者用其他算法。
递归地改善刚刚挑选到的簇：
- 在当前的聚类(clustering)下，把每个对象分配到最合适的簇(cluster)中
- 基于刚才的重新聚类，重新计算新的簇的代表。
- 重复到不再改变

启发式算法会渐近地提高聚类的质量，进而逼近局部最优解。本小节介绍的k-mean算法就是一种启发式算法。

数学的定义如下：

$D$ $\mathcal{C}=\{C_1,...,C_k\}$ $D$ fulfills:

$C_i\subseteq D$ $1\leq i \leq k$
$C_i\cap C_j = \empty \Leftrightarrow i\neq j$
$\bigcup C_i=D$

$D$ $C_i$ .

形心 centroid of a cluster

形心是一个簇的中心点。

形心点有多种形式可以定义，可以用一个簇的所有值的均值或者是一个簇的中心点。

K-mean

K-mean 算法的目的是：

Find a clustering such that the within-cluster variation of each cluster is small and use the centroid of a cluster as a representative.

找到一个聚类(clustering),使得每个簇的簇内变差是很小的，并且使用形心作为代表.[1] 簇内变差的定义见下文中的符号规定。

符号规定

$\textbf{p}=(p_1,...,p_d)$ $d$ 维向量空间的点。
平方距离和（用来衡量一个簇的紧凑程度(compactness))(sum of squared distances):
$\begin{matrix} (1) & S S E (C_{j}) = \sum_{p \in C_{j}} | | p - μ_{C_{j}} | |_{2}^{2} \end{matrix}$
$C_j$ $\mu_{C_j}$ $C_j$ 的平均值。
$\mathcal{C}$ 的紧凑程度:
$\begin{matrix} (2) & S S E (C) = \sum_{C_{j} \in C} S S E (C_{j}) = \sum_{p \in D} | | p - μ_{C_{j}} | |_{2}^{2} \end{matrix}$
$D$ $SSE$ 之和。
$E$ $\mathcal{C}$ 中一共有k个簇，那么
$\begin{matrix} (3) & E = \sum_{i = 1}^{k} \sum_{p \in C_{i}} d i s t (p, c_{i})^{2} \end{matrix}$
$dist(p,c_i)$ $\mathbf{p}$ $\mathbf{c_i}$ 之间的欧式距离,这两个点都是多维的。这里(2)式和(3)式的意思完全一致
$\arg\min_{\mathcal{C}} SSE(\mathcal{C})$ 使得整体SSE最小的聚类。

算法

$SSE(\mathcal{C})$ $SSE(\mathcal{C})$ 值最小的问题也是NP-hard的。

$O(n^{(dk+1)}logn)$ $d$ $k$ $n$ 是对象的个数。

$k$ $SSE$ ：对于每个簇，算法使用上次迭代分配到的该簇的对象，计算新的均值。然后用更新后的均值作为新的形心，重新分配所有对象。一直迭代到本轮形成的簇和上一轮一样。

具体过程如下：

输入：

$k$ 作为簇的数目
$n$ $D$

初始化：

$p_1,p_2,...p_k$

重复：

$D$ $p_i$ $i\in1,...,k$ 。
为每个簇重新计算形心，并把每个形心作为新的代表对象

直到：

代表对象不再改变

分析

$O(nkt)$ $k<<n,t<<n$ .所以对于大数据集这种算法非常有效。

优势:

算法复杂度通常情况下比较低
易于部署。

局限性在于：

必须给出簇的均值的定义。
$k$ 。
对噪声和离群点敏感。因为少量的极值会对均值产生很大影响。
簇要求形状得是凸的
性能或者说是时间复杂度与初始化的关系很大。

k-Median

k-mean算法对离群点比较敏感。改进的一种想法是不让对象和均值比较，而是让对象和对象比较。

具体来说，我们为每一个簇挑选一个代表对象。然后让剩下的对象和这些代表对象比，找到与代表对象最相似的，将对象放入代表对象所对应的簇中。

$SSE(\mathcal{C})$ 类似，这里我们可以定义一个绝对误差标准(absolute-error criterion):

\begin{matrix} (4) & A E C (C) = \sum_{C_{j} \in C} A E C (C_{j}) = \sum_{p \in D} | | p - o_{i} | |_{2}^{2} \end{matrix}

\begin{matrix} (5) & E = \sum_{i = 1}^{k} \sum_{p \in C_{j}} d i s t (p, o_{i}) \end{matrix}

$\mathbf{o_i}$ $AEC(\mathcal{C})$ 的值。

$O(n^2)$ ，如果k>1,找中心点是NP-hard的。

k-median算法同样可以计算无法取均值的ordering数据。

k-median算法与k-mean类似，只是公式不同，在此不做赘述，有兴趣可以阅读这篇文章，介绍了k-mean,k-median，以及衍生出的PAM。

Silhouette-Coefficient

如何挑选参数k呢？非常简单的想法是遍历k的大小，从2一直到n-1，n是数据的规模。然后我们挑选出最好的聚类所对应的k。

$SSE$ $AEC$ 肯定是不行的，因为随着k的增加，这两个值必然会减小。

Silhouette-Coefficient可以评估一个聚类的质量。挑选它的原因也很简单，这个系数不会因为k的增加而单调。

$a(o)$ $o$ $b(o)$ 表示相异性。

$a(o)$ $o$ 到簇内其他对象的平均距离来表示：

\begin{matrix} (6) & a (o) = \frac{1}{| C (o) |} \sum_{p \in C (o)} d i s t (o, p) \end{matrix}

$|C(o)|$ $o$ $C(o)$ 的对象的数量。

$b(o)$ 可以用代表对象到其他簇的对象的最小距离的平均值来表示

\begin{matrix} (7) & b (o) = min_{C_{i} \neq C (o)} {\frac{1}{| C_{i} |} \sum_{p \in C_{i}} d (o, p)} \end{matrix}

可以用下面的图片来表示上面的定义。

Silhouette Coefficient定义如下:

\begin{matrix} (8) & \begin{matrix} s (o) = {\begin{array}{rcl} 0 & i f a (o) = 0, e . g . | C_{i} | = 1 \\ \frac{b (o) - a (o)}{max (a (o), b (o))} & e l s e \end{array} \end{matrix} \end{matrix}

$s(o)$ $[-1,1]$ 。

$C_i$ 的silhouette是：

\begin{matrix} (9) & s (C_{i}) = \frac{1}{| C_{i} |} \sum_{o \in C_{i}} s (o) \end{matrix}

$\mathcal{C}={(C_1,...,C_k)}$ 的silhouette是

\begin{matrix} (10) & s (C) = \frac{1}{| D |} \sum_{o \in D} s (o) \end{matrix}

$D$ 表示整个数据集

Evaluating

对于一个簇来说，

$b(o)>>a(o)\rightarrow s(o)\approx 1$ $o$ $b(o)\approx a(o)\rightarrow s(o)\approx 0$ $o$ $b(o) << a(o)\rightarrow s(o)\approx -1$ $o$ 距离另一个簇更近。

对于一个聚类来说，

$0.7<s(\mathcal{C})\leq 1.0$ $0.5<s(\mathcal{C})\leq 0.7$ $0.25<s(\mathcal{C})\leq 0.5$ $s\mathcal(C)\leq 0.25$ ，则就没有一个聚类结构。

Reference

[1] S.P. Lloyd: Least squares quantization in PCM. In IEEE Information Theory, 1982

Clustering – Partitioning Methods

定义