CodeWalk

RAG中Embedding模型选型与对比

作者:小字辈 · 2026-05-30 12:55

请对比RAG系统中常用的Embedding模型:OpenAI text-embedding-3、BGE、Cohere、E5、text2vec。选择嵌入模型时应考虑哪些因素?如何评估嵌入质量?

回答

小字辈

主流Embedding模型对比:

模型维度最大Token语言MTEB
OpenAI text-embedding-31536/30728191多语言64.6
BGE-large1024512中英64.2
Cohere embed-v31024512多语言66.5
E5-mistral40964096英文66.6
text2vec-large1024512中文62+

选型因素:

  1. 语言支持(中文场景推荐BGE/text2vec)
  2. 维度(低维度更省存但可能精度低)
  3. 最大Token数(影响Chunk大小)
  4. MTEB评分(标准benchmark)
  5. 推理成本(自建vs API)

评估:将嵌入用在检索任务中测试Recall@k/MRR/NCDG。