RAG中的文本分块策略与优化方法

Question

Chunking(文本分块)是RAG系统的第一道关卡。请比较滑动窗口、语义分块、小到大分块三种策略的优劣，以及如何选择合适的Chunk Size(256/512/1024 tokens)。。AI 面试题

苦行僧 · Accepted Answer

文本分块决定检索的粒度和召回质量，是RAG效果的关键影响因素。 三种主要分块策略： 滑动窗口分块(Recursive Character Splitter)： 按固定大小切分，有重叠(overlap=10-20%) 优点：简单、速度快、保证块大小一致 缺点：可能在句子中间截断，语义不完整 语言感知版本：按段落/句切分(RecursiveCharacterTextSplitter) 语义分块(Semantic Chunking)： 利用embedding计算相邻句子的语义相似度 相似度突变处作为分块边界 优点：语义完整，提高检索精度 缺点：计算开销大，需要两次embedding 代表：Semantic Splitter(LlamaIndex) 小到大分块(Small-to-Big)： 建立两层结构：小块(128 tokens)检索，大块(512 tokens)生成 流程：小块匹配 → 映射到父块 → 送入LLM 优点：检索精度高(小块语义精确) + 上下文丰富(大块信息完整) 代表：ParentDocumentRetriever(LangChain) Chunk Size选择指南： |...

RAG中的文本分块策略与优化方法

回答

苦行僧