不平衡数据集的Focal Loss调参
讨论Focal Loss中γ和α两个超参数的调节策略及对不同任务的影响。
回答
苦行僧
Focal Loss: FL(p_t) = -α_t·(1-p_t)^γ·log(p_t)
γ (聚焦参数 - Focusing Parameter):
- γ=0: 退化为标准交叉熵
- γ=1: 中等衰减
- γ=2: 默认推荐,易分类样本权重下降~100x
- γ=5: 极度聚焦难样本,适合极端不平衡
调参策略:
- 正负比1:1000 → γ=2起步
- 正负比1:10000+ → γ=3-5
- γ过大 → 模型过度关注异常点/噪声,训练不稳定
- 先固定γ=2调其他超参数,最后微调γ
α (平衡权重 - Balancing Weight):
- α∈[0,1],控制正负样本整体权重比
- α_t = α (正类) / 1-α (负类)
- 通常设α = 负样本数量/总样本数量(即稀有类权重更高)
- 或直接用类别频率倒数归一化
组合策略:
- α平衡正负样本数量,γ聚焦难易程度
- 典型:γ=2, α=0.25(RetinaNet)
- 可网格搜索:γ∈[0.5,5], α∈[0.1,0.5]
应用差异:
- 目标检测:γ=2, α=0.25是标准配置
- 文本分类:γ=2-3, α=类别频率倒数
- 医学分割:γ=2-5取决于病灶占比