E5/BGE/text2vec中文Embedding对比选型

Question

请对比E5、BGE(BAAI General Embedding)和text2vec三个中文Embedding模型系列。它们的训练数据有什么不同？在中文场景下各自的表现如何？如何根据自己的需求选择合适的Embedding模型？。AI 面试题

专业代码师 · Accepted Answer

中文Embedding对比： BGE系列(BAAI)： BGE-large-zh(1024维)：中文检索最强 BGE-M3(多语言/多粒度)：支持稠密+稀疏混合检索 训练：大规模中文语料+RetroMAE预训练 MTEB中文排名前列 推荐：通用中文RAG首选 E5系列(Microsoft)： multilingual-e5-large(1024维)：多语言 训练：CCNet过滤+对比学习 中文表现略弱于BGE(以英文为主) 多语言场景优秀 text2vec(Shibing624)： text2vec-large-chinese(1024维) 训练：基于CoSENT/BERT 轻量部署友好 社区活跃但规模较小 选型建议： | 场景 | 推荐 | |------|------| | 通用中文RAG | BGE-large-zh | | 多语言(英+中) | BGE-M3 | | 多语言优先 | multilingual-e5 | | 轻量部署 | BGE-small-zh | | 检索+分类 | text2vec | 评估：用C-MTEB(中文MTEB)benchmark对比各模型。

E5/BGE/text2vec中文Embedding对比选型

回答

专业代码师