朴素贝叶斯分类器的条件独立假设与三种变体

Question

朴素贝叶斯（Naive Bayes）假设特征在给定类别下条件独立。请解释这一假设的数学表达、为什么在假设不成立时仍能表现良好，以及三种常见变体（高斯、多项式、伯努利）的适用场景。。AI 面试题

小字辈 · Accepted Answer

条件独立假设： P(x₁,...,x_d|y) = Πᵢ P(xᵢ|y) 即给定类别y，各特征之间相互独立。 为什么假设看似不合理却有效： 参数少：假设将O(d²)的参数减少到O(d)，避免过拟合 决策面可正确：即使概率估计有偏，分类决策边界可能仍然正确（估计量的偏序一致性） 方差低：简单模型=低方差，在小样本场景下优于复杂模型 三种变体： 1. 高斯朴素贝叶斯（Gaussian NB）： 假设P(xᵢ|y)服从高斯分布 适用于连续特征（如温度、价格） 参数：μᵢᵧ, σᵢᵧ² 2. 多项式朴素贝叶斯（Multinomial NB）： 假设P(xᵢ|y)为多项分布，特征为计数 适用于文本分类（词频向量TF） 需拉普拉斯平滑防止零概率 3. 伯努利朴素贝叶斯（Bernoulli NB）： 特征为二元布尔变量（出现/不出现） 适用于短文本分类、垃圾邮件检测 比多项式NB更强调"出现"而非"次数"

朴素贝叶斯分类器的条件独立假设与三种变体

回答

小字辈