F1 Score为什么用调和平均而非算术平均?
F1 Score使用Precision和Recall的调和平均而非算术平均,请解释其原因。
回答
小字辈
调和平均对较小值更敏感。当Precision和Recall差距悬殊时,调和平均远小于算术平均,更能反映模型的实际缺陷。例如:P=1.0、R=0.01 → 算术平均=0.505,调和平均≈0.0198。算术平均给人「还不错」的错觉,但调和平均准确反映Recall极差的现实。数学特性:调和平均≤几何平均≤算术平均,仅当所有值相等时取等。F1逼迫模型在Precision和Recall间平衡——过度牺牲一方无法获得高分。Fβ是F1的推广,β控制Recall的权重(β>1更重视Recall,β<1更重视Precision)。