This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
keynote:lesson04 [2010/06/26 19:30] 10921021 |
keynote:lesson04 [2023/08/19 21:02] (current) |
||
---|---|---|---|
Line 23: | Line 23: | ||
===== 4.1.2 几种聚类方法 ===== | ===== 4.1.2 几种聚类方法 ===== | ||
- | ==== 1.层次(从顶到下)聚类 ==== | + | ==== 1.层次(自底向上)聚类 ==== |
* **__思想__:** 顺序地将最近的两个点/类合并; | * **__思想__:** 顺序地将最近的两个点/类合并; | ||
* **__具体过程__** | * **__具体过程__** | ||
- 找到两个最近的点(类),并将其合并; | - 找到两个最近的点(类),并将其合并; | ||
- 重复上述操作,直至所有的点聚为一个类; | - 重复上述操作,直至所有的点聚为一个类; | ||
- | * **__变量定义__** | + | * **__变量定义(可聚类的两个前提条件)__** |
- | - 两个数据点间的距离:$d(x_i, x_j)$; | + | - 可以度量两个数据点间的距离:$d(x_i, x_j)$; |
- | - 两个类间的距离: | + | - 可以度量两个类间的距离: |
- 单点距离: \[ d_{kl} = min_{x_i \in C_k, x_j \in C_l} d(x_i, d_j)\] | - 单点距离: \[ d_{kl} = min_{x_i \in C_k, x_j \in C_l} d(x_i, d_j)\] | ||
- 平均点距离:\[ d_{kl} = \frac{1}{ |C_k| + |C_l| } \sum_{x_i \in C_k, x_j \in C_l} {d(x_i, d_j)} \] | - 平均点距离:\[ d_{kl} = \frac{1}{ |C_k| + |C_l| } \sum_{x_i \in C_k, x_j \in C_l} {d(x_i, d_j)} \] | ||
Line 47: | Line 47: | ||
- 若两点间无边,则其权值为0; | - 若两点间无边,则其权值为0; | ||
- 变换成概率矩阵 {{:keynote:24.jpg|}}; | - 变换成概率矩阵 {{:keynote:24.jpg|}}; | ||
- | * **__随机流动的性质__** | + | * **__随机漫步的性质__** |
* {{:keynote:26.jpg|}} | * {{:keynote:26.jpg|}} | ||
* 随着t的增大,t步后数据点的分布渐趋相似。若图为连通的,则最终的结果与初始点的选取无关。 | * 随着t的增大,t步后数据点的分布渐趋相似。若图为连通的,则最终的结果与初始点的选取无关。 |