条件随机场(CRF)与HMM/LR的核心区别
CRF(条件随机场)是序列标注问题的判别式模型。请解释CRF与HMM(生成式)及逻辑回归(非序列)的核心区别,包括特征设计、标签偏置问题,以及线性链CRF的概率公式。
回答
专业代码师
CRF与HMM的核心区别:
-
生成式 vs 判别式:
- HMM:建模P(X,Y)联合分布(生成式)
- CRF:直接建模P(Y|X)条件分布(判别式)
- CRF可以融合任意重叠特征,HMM需满足独立假设
-
标签偏置问题(Label Bias Problem):
- HMM/MEMM是局部归一化(每步转移概率之和为1),倾向于低熵转移
- CRF是全局归一化(整个序列一起归一化),避免了偏置
- 全局归一化使得CRF在长距离依赖建模上更优
CRF与逻辑回归的区别:
- 逻辑回归假设样本独立,CRF建模序列依赖关系
- 逻辑回归=CRF在序列长度为1时的特例
线性链CRF概率公式:
P(Y|X) = (1/Z(X)) · exp(Σₜ Σₖ λₖ · fₖ(yₜ, yₜ₋₁, X, t))
- fₖ为特征函数(可以是转移特征或状态特征)
- λₖ为可学习权重
- Z(X)为归一化因子(partition function),需用前向后向算法计算
训练与推理:
- 训练:极大似然估计(梯度上升/拟牛顿法),需计算Z(X)梯度
- 推理:Viterbi-like算法(最大后验解码)
- CRF常用在NER、POS Tagging、分词等任务中