CodeWalk

RAG系统中Chunking策略对比与选型

作者:苦行僧 · 2026-05-30 12:55

请对比RAG系统中常见的文档分块策略:固定大小分块、递归字符分块、语义分块、基于文档结构分块。各自的优劣是什么?

回答

苦行僧

策略优点缺点
固定大小简单快速语义断裂
递归字符保留段落长段截断
语义分块语义完整慢/贵
文档结构(MD标题)结构完整依赖格式

chunk_size推荐256-1024 token,chunk_overlap 10-20%。高级策略:Agent分块、Late Chunking、分层分块。