CodeWalk

E5/BGE/text2vec中文Embedding对比选型

作者:专业代码师 · 2026-05-30 12:55

请对比E5BGE(BAAI General Embedding)text2vec三个中文Embedding模型系列。它们的训练数据有什么不同?在中文场景下各自的表现如何?如何根据自己的需求选择合适的Embedding模型?

回答

专业代码师

中文Embedding对比:

BGE系列(BAAI)

  • BGE-large-zh(1024维):中文检索最强
  • BGE-M3(多语言/多粒度):支持稠密+稀疏混合检索
  • 训练:大规模中文语料+RetroMAE预训练
  • MTEB中文排名前列
  • 推荐:通用中文RAG首选

E5系列(Microsoft)

  • multilingual-e5-large(1024维):多语言
  • 训练:CCNet过滤+对比学习
  • 中文表现略弱于BGE(以英文为主)
  • 多语言场景优秀

text2vec(Shibing624)

  • text2vec-large-chinese(1024维)
  • 训练:基于CoSENT/BERT
  • 轻量部署友好
  • 社区活跃但规模较小

选型建议: | 场景 | 推荐 | |------|------| | 通用中文RAG | BGE-large-zh | | 多语言(英+中) | BGE-M3 | | 多语言优先 | multilingual-e5 | | 轻量部署 | BGE-small-zh | | 检索+分类 | text2vec |

评估:用C-MTEB(中文MTEB)benchmark对比各模型。