别让RAG喂垃圾了,源头怎么建高质量知识库?
- 内容介绍
- 文章标签
- 相关推荐
别让RAG喂垃圾了——从“源头”打造高质量知识库的血泪史
说真的, 很多人把RAG当成魔法棒,一挥就能召唤出答案。后来啊呢?答案像是被隔壁老王的狗子拉屎一样,满是“屎味”。别再自欺欺人了垃圾进, 不堪入目。 垃圾出这条铁律永远不变!下面我要用一颗不羁的心,把构建干净知识库的坑爹细节全部搬出来让你在血与泪的洗礼后还能笑到再说说。
⚡️第一步:先把数据“洗澡”, 别让脏水直接冲进模型
很多同学直接把全网爬下来的 PDF、HTML、Word 直接塞进向量库。后来啊?模型开始胡言乱语:“我不知道, 这家伙... 我也不知道”。这时候,你得先给数据来个深度清洗——去广告、去重复、去乱码。这里有几个常见的坑:

- 乱码字符如 “·” “–” 那么恼人,直接导致分词崩溃。
- 同一篇文献出现多版本,必须去重,否则向量会相互干扰。
- 表格/图片被当成纯文本丢进去,模型根本读不懂。
想象一下 你把一锅混杂着泥巴和蔬菜的大杂烩喂给厨师,他还能做出五星级料理吗?明摆着不行!所以——先清洗,再切块,再喂模型,哈基米!。
🔧第二步:文档切块策略大乱斗
好吧... 切块是 RAG 的灵魂。切太大,检索慢;切太小,又失上下文。下面这几种常见的切块方式, 你可以随意组合:
- 固定长度切块每 500 字一个块,简单粗暴,却容易截断句子。
- 语义切块利用分段标题或章节层级自动划分,更贴近人类阅读习惯。
- 表格/代码专属块单独抽取表格或代码段,以 Markdown 或 CSV 格式保存。
实战技巧:
太魔幻了。
别让RAG喂垃圾了——从“源头”打造高质量知识库的血泪史
说真的, 很多人把RAG当成魔法棒,一挥就能召唤出答案。后来啊呢?答案像是被隔壁老王的狗子拉屎一样,满是“屎味”。别再自欺欺人了垃圾进, 不堪入目。 垃圾出这条铁律永远不变!下面我要用一颗不羁的心,把构建干净知识库的坑爹细节全部搬出来让你在血与泪的洗礼后还能笑到再说说。
⚡️第一步:先把数据“洗澡”, 别让脏水直接冲进模型
很多同学直接把全网爬下来的 PDF、HTML、Word 直接塞进向量库。后来啊?模型开始胡言乱语:“我不知道, 这家伙... 我也不知道”。这时候,你得先给数据来个深度清洗——去广告、去重复、去乱码。这里有几个常见的坑:

- 乱码字符如 “·” “–” 那么恼人,直接导致分词崩溃。
- 同一篇文献出现多版本,必须去重,否则向量会相互干扰。
- 表格/图片被当成纯文本丢进去,模型根本读不懂。
想象一下 你把一锅混杂着泥巴和蔬菜的大杂烩喂给厨师,他还能做出五星级料理吗?明摆着不行!所以——先清洗,再切块,再喂模型,哈基米!。
🔧第二步:文档切块策略大乱斗
好吧... 切块是 RAG 的灵魂。切太大,检索慢;切太小,又失上下文。下面这几种常见的切块方式, 你可以随意组合:
- 固定长度切块每 500 字一个块,简单粗暴,却容易截断句子。
- 语义切块利用分段标题或章节层级自动划分,更贴近人类阅读习惯。
- 表格/代码专属块单独抽取表格或代码段,以 Markdown 或 CSV 格式保存。
实战技巧:
太魔幻了。

