Lasso回归为什么能进行特征选择?
请解释**Lasso回归(L1正则化)**为何能够将部分特征的权重压缩到零,从而实现特征选择?给出数学或几何解释。
回答
Yahuda
Lasso回归的损失函数为 MSE + λΣ|wᵢ|。L1正则化的约束区域是菱形(L1-ball),其顶点位于坐标轴上。当目标函数(MSE等高线)与菱形相交时,交点更容易落在顶点上——此时某些wᵢ=0。相比L2的圆形约束区域,顶点更尖锐,因此更易产生稀疏解。几何上,菱形有2ᴰ个顶点,高维空间中大多数顶点都在坐标轴上。从贝叶斯角度看,L1对应拉普拉斯先验(峰值在0),L2对应高斯先验,拉普拉斯分布更