This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
keynote:2011-lesson03 [2011/06/26 06:17] 11021015 [第三课] |
keynote:2011-lesson03 [2014/05/22 08:34] (current) |
||
---|---|---|---|
Line 54: | Line 54: | ||
* 如果 $p(x | \theta_m)$ 是多元正太分布,即高斯分布,则此混合聚类的模型即为高斯混合模型(GMM)。在高斯混合模型中,$\theta_m = {\{\mu_m, \sum_m}\}$,其中$\mu_m$表示第m个成分的均值,$\sum_m$表示第m个成分的协方差。其中,概率密度函数可以表示为: | * 如果 $p(x | \theta_m)$ 是多元正太分布,即高斯分布,则此混合聚类的模型即为高斯混合模型(GMM)。在高斯混合模型中,$\theta_m = {\{\mu_m, \sum_m}\}$,其中$\mu_m$表示第m个成分的均值,$\sum_m$表示第m个成分的协方差。其中,概率密度函数可以表示为: | ||
- | $p(x|\theta_m)=p(x|\mu_m,\sum_m) = \frac{exp\{-1/2(x-\mu_m)^T\sum_m^{-1}(x-\mu_m)\}}{(2\pi)^{d/2}|\sum_m|^{1/2}}$ | + | * $p(x|\theta_m)=p(x|\mu_m,\sum_m) = \frac{exp\{-1/2(x-\mu_m)^T\sum_m^{-1}(x-\mu_m)\}}{(2\pi)^{d/2}|\sum_m|^{1/2}}$ |
* 具体来说,GMM 假设数据是服从一个混合高斯分布,也就是许多个独立的高斯模型的加权,聚类的过程实际上就是对这个 model 进行 fitting 的过程,恢复出各个高斯模型的参数之后,每个数据点属于该类别的概率也就很自然地使用该高斯模型生成这个数据的概率来表示了。通常我们都使用最大似然的方式来对概率模型进行 fitting ,但是混合高斯模型由于对多个高斯分布进行加权,结果的概率式子很难解析地或者直接地求得最大似然的解,所以在计算的过程中采用了分布迭代的过程,具体是使用了一种叫做 Expectation Maximization (EM) 的方法,进行迭代求解。 | * 具体来说,GMM 假设数据是服从一个混合高斯分布,也就是许多个独立的高斯模型的加权,聚类的过程实际上就是对这个 model 进行 fitting 的过程,恢复出各个高斯模型的参数之后,每个数据点属于该类别的概率也就很自然地使用该高斯模型生成这个数据的概率来表示了。通常我们都使用最大似然的方式来对概率模型进行 fitting ,但是混合高斯模型由于对多个高斯分布进行加权,结果的概率式子很难解析地或者直接地求得最大似然的解,所以在计算的过程中采用了分布迭代的过程,具体是使用了一种叫做 Expectation Maximization (EM) 的方法,进行迭代求解。 |