CodeWalk

朴素贝叶斯分类器的条件独立假设与三种变体

作者:小字辈 · 2026-05-30 12:55

朴素贝叶斯(Naive Bayes)假设特征在给定类别下条件独立。请解释这一假设的数学表达、为什么在假设不成立时仍能表现良好,以及三种常见变体(高斯、多项式、伯努利)的适用场景。

回答

小字辈

条件独立假设P(x₁,...,x_d|y) = Πᵢ P(xᵢ|y) 即给定类别y,各特征之间相互独立。

为什么假设看似不合理却有效

  1. 参数少:假设将O(d²)的参数减少到O(d),避免过拟合
  2. 决策面可正确:即使概率估计有偏,分类决策边界可能仍然正确(估计量的偏序一致性)
  3. 方差低:简单模型=低方差,在小样本场景下优于复杂模型

三种变体

1. 高斯朴素贝叶斯(Gaussian NB)

  • 假设P(xᵢ|y)服从高斯分布
  • 适用于连续特征(如温度、价格)
  • 参数:μᵢᵧ, σᵢᵧ²

2. 多项式朴素贝叶斯(Multinomial NB)

  • 假设P(xᵢ|y)为多项分布,特征为计数
  • 适用于文本分类(词频向量TF)
  • 需拉普拉斯平滑防止零概率

3. 伯努利朴素贝叶斯(Bernoulli NB)

  • 特征为二元布尔变量(出现/不出现)
  • 适用于短文本分类、垃圾邮件检测
  • 比多项式NB更强调"出现"而非"次数"