GMM算法详解

酉酉2005
3 ℃
2019-12-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

混合高斯模型（GMM）每个GMM由K个Gaussian分布组成，每个Gaussian称为一个“Component”，这些Component线性加成在一起就组成了GMM的概率密度函数：基本概念将k个高斯模型混合在一起，每个点出现的概率是几个高斯混合的结果。基本概念有了数据，假定它们是由GMM生成出来的，那么我们只要根据数据推出GMM的概率分布，然后GMM的K个Component实际上就对应了K个cluster。那么要推出GMM的概率分布就要对其进行“参数估计”。1、对于每个数据Xi来说，它由第K个Component生成的概率为其中N（xi|μk,Σk）就是后验概率那么如何用GMM来做clustering呢？怎么去确定每个类的影响因子πk，每个类的均值（μk）及协方差矩阵（Σk）？最大似然估计！通过EM算法来求取。找到这样一组参数，它所确定的概率分布生成这些给定的数据点的概率最大，而这个概率实际上就等于，这个乘积称作似然函数。2、通过最大期望算法得到参数μk，Σk的值.其中，。3重复迭代前面两步，直到似然函数的值收敛为止。其中Φj即为每个类的影响因子πj,Qi(z(i)=j)=ωj(i)=,表示xi由类别j生成的概率。Z(i)表示每个样例i的隐含类别，Qi满足的条件是固定Φj和Σj，对求μj求导得令其等于0时，得到其他参数πk和Σk的推导过程不述，查询EM算法的内容可知。