G-Eval框架的链式思维评估方法

Question

G-Eval是一种使用GPT-4进行链式思维评估的框架。请解释其评估流程(Prompt构造→生成→概率归一化→评分)、与直接评分的差异，以及Multi-Dimension G-Eval的实现。。AI 面试题。Microsoft 面试题

我还是少年 · Accepted Answer

G-Eval(2023, ACL)将评估变为一个链式推理任务，通过logits概率获得更细粒度的评分。

G-Eval流程：

Prompt构造：定义任务描述、评估维度、评分标准(1-5分制)
CoT推理生成：LLM先生成推理步骤(分析文本的优劣)
概率归一化评分：
- 关键创新：看下一个token(1-5数字)的logits概率分布
- 加权平均得到连续分数：score = Σ(i × P(token=i)) / ΣP(token=i)
- 这比硬评分(离散1,2,3,4,5)更精细

与直接评分的差异：

Multi-Dimension G-Eval：

实际表现：

局限：受限于Judge LLM的能力边界，CoT增加了token消耗。

回答