高斯混合模型(GMM)与EM算法的关系
高斯混合模型(GMM)是软聚类的代表方法,通常用EM算法求解。请解释GMM的数学表示、EM算法的E步和M步具体内容,以及GMM与K-Means的关联。
回答
小字辈
GMM数学表示:
p(x) = Σₖ πₖ · N(x | μₖ, Σₖ)
其中πₖ为混合系数(权重),Σπₖ=1,N(·)为高斯分布。
EM算法求解GMM:
E步(期望步):
计算样本xᵢ属于第k个高斯分量的后验概率(responsibility):
γᵢₖ = πₖ · N(xᵢ|μₖ, Σₖ) / Σⱼ πⱼ · N(xᵢ|μⱼ, Σⱼ)
M步(最大化步): 更新参数以最大化对数似然期望:
μₖ = (Σᵢ γᵢₖ · xᵢ) / (Σᵢ γᵢₖ)(加权均值)Σₖ = (Σᵢ γᵢₖ · (xᵢ-μₖ)(xᵢ-μₖ)ᵀ) / (Σᵢ γᵢₖ)(加权协方差)πₖ = (Σᵢ γᵢₖ) / N(分量权重)
与K-Means的关联:
- K-Means是GMM的特例(Σₖ=σ²I固定,γᵢₖ退化为硬分配)
- GMM提供聚类概率(软聚类),K-Means只给硬标签
- GMM可拟合椭圆形簇,K-Means限球形
优势:可建模不同大小和方向的簇,提供概率归属。