CodeWalk

G-Eval框架的链式思维评估方法

作者:我还是少年 · 2026-05-30 12:55

G-Eval是一种使用GPT-4进行链式思维评估的框架。请解释其评估流程(Prompt构造→生成→概率归一化→评分)、与直接评分的差异,以及Multi-Dimension G-Eval的实现。

回答

我还是少年

G-Eval(2023, ACL)将评估变为一个链式推理任务,通过logits概率获得更细粒度的评分。

G-Eval流程

  1. Prompt构造:定义任务描述、评估维度、评分标准(1-5分制)
  2. CoT推理生成:LLM先生成推理步骤(分析文本的优劣)
  3. 概率归一化评分
    • 关键创新:看下一个token(1-5数字)的logits概率分布
    • 加权平均得到连续分数:score = Σ(i × P(token=i)) / ΣP(token=i)
    • 这比硬评分(离散1,2,3,4,5)更精细

与直接评分的差异

  • 直接评分:'Please rate from 1-5' → LLM输出'4'
  • G-Eval:CoT → 概率加权评分 → 连续分数(如3.42分)

Multi-Dimension G-Eval

  • 对多个维度独立评估:相关性(Relevance)、连贯性(Coherence)、一致性(Consistency)、流畅性(Fluency)
  • 每个维度独立Prompt

实际表现

  • 与人工评分的Spearman相关系数:0.51(G-Eval) vs 0.39(直接评分)
  • 在生成摘要评估上,G-Eval接近人工水平

局限:受限于Judge LLM的能力边界,CoT增加了token消耗。