E5/BGE/text2vec中文Embedding对比选型
请对比E5、BGE(BAAI General Embedding)和text2vec三个中文Embedding模型系列。它们的训练数据有什么不同?在中文场景下各自的表现如何?如何根据自己的需求选择合适的Embedding模型?
回答
专业代码师
中文Embedding对比:
BGE系列(BAAI):
- BGE-large-zh(1024维):中文检索最强
- BGE-M3(多语言/多粒度):支持稠密+稀疏混合检索
- 训练:大规模中文语料+RetroMAE预训练
- MTEB中文排名前列
- 推荐:通用中文RAG首选
E5系列(Microsoft):
- multilingual-e5-large(1024维):多语言
- 训练:CCNet过滤+对比学习
- 中文表现略弱于BGE(以英文为主)
- 多语言场景优秀
text2vec(Shibing624):
- text2vec-large-chinese(1024维)
- 训练:基于CoSENT/BERT
- 轻量部署友好
- 社区活跃但规模较小
选型建议: | 场景 | 推荐 | |------|------| | 通用中文RAG | BGE-large-zh | | 多语言(英+中) | BGE-M3 | | 多语言优先 | multilingual-e5 | | 轻量部署 | BGE-small-zh | | 检索+分类 | text2vec |
评估:用C-MTEB(中文MTEB)benchmark对比各模型。