朴素贝叶斯分类器的条件独立假设与三种变体
朴素贝叶斯(Naive Bayes)假设特征在给定类别下条件独立。请解释这一假设的数学表达、为什么在假设不成立时仍能表现良好,以及三种常见变体(高斯、多项式、伯努利)的适用场景。
回答
小字辈
条件独立假设:
P(x₁,...,x_d|y) = Πᵢ P(xᵢ|y)
即给定类别y,各特征之间相互独立。
为什么假设看似不合理却有效:
- 参数少:假设将O(d²)的参数减少到O(d),避免过拟合
- 决策面可正确:即使概率估计有偏,分类决策边界可能仍然正确(估计量的偏序一致性)
- 方差低:简单模型=低方差,在小样本场景下优于复杂模型
三种变体:
1. 高斯朴素贝叶斯(Gaussian NB):
- 假设P(xᵢ|y)服从高斯分布
- 适用于连续特征(如温度、价格)
- 参数:μᵢᵧ, σᵢᵧ²
2. 多项式朴素贝叶斯(Multinomial NB):
- 假设P(xᵢ|y)为多项分布,特征为计数
- 适用于文本分类(词频向量TF)
- 需拉普拉斯平滑防止零概率
3. 伯努利朴素贝叶斯(Bernoulli NB):
- 特征为二元布尔变量(出现/不出现)
- 适用于短文本分类、垃圾邮件检测
- 比多项式NB更强调"出现"而非"次数"