RAG系统中Chunking策略对比与选型
请对比RAG系统中常见的文档分块策略:固定大小分块、递归字符分块、语义分块、基于文档结构分块。各自的优劣是什么?
回答
苦行僧
| 策略 | 优点 | 缺点 |
|---|---|---|
| 固定大小 | 简单快速 | 语义断裂 |
| 递归字符 | 保留段落 | 长段截断 |
| 语义分块 | 语义完整 | 慢/贵 |
| 文档结构(MD标题) | 结构完整 | 依赖格式 |
chunk_size推荐256-1024 token,chunk_overlap 10-20%。高级策略:Agent分块、Late Chunking、分层分块。
请对比RAG系统中常见的文档分块策略:固定大小分块、递归字符分块、语义分块、基于文档结构分块。各自的优劣是什么?
| 策略 | 优点 | 缺点 |
|---|---|---|
| 固定大小 | 简单快速 | 语义断裂 |
| 递归字符 | 保留段落 | 长段截断 |
| 语义分块 | 语义完整 | 慢/贵 |
| 文档结构(MD标题) | 结构完整 | 依赖格式 |
chunk_size推荐256-1024 token,chunk_overlap 10-20%。高级策略:Agent分块、Late Chunking、分层分块。