RAG中Embedding模型选型与对比

Question

请对比RAG系统中常用的Embedding模型：OpenAI text-embedding-3、BGE、Cohere、E5、text2vec。选择嵌入模型时应考虑哪些因素？如何评估嵌入质量？。AI 面试题

小字辈 · Accepted Answer

主流Embedding模型对比： 模型维度最大Token语言MTEB OpenAI text-embedding-31536/30728191多语言64.6 BGE-large1024512中英64.2 Cohere embed-v31024512多语言66.5 E5-mistral40964096英文66.6 text2vec-large1024512中文62+ 选型因素： 语言支持(中文场景推荐BGE/text2vec) 维度(低维度更省存但可能精度低) 最大Token数(影响Chunk大小) MTEB评分(标准benchmark) 推理成本(自建vs API) 评估：将嵌入用在检索任务中测试Recall@k/MRR/NCDG。

模型	维度	最大Token	语言	MTEB
OpenAI text-embedding-3	1536/3072	8191	多语言	64.6
BGE-large	1024	512	中英	64.2
Cohere embed-v3	1024	512	多语言	66.5
E5-mistral	4096	4096	英文	66.6
text2vec-large	1024	512	中文	62+

RAG中Embedding模型选型与对比

回答

小字辈