RAG系列01——Naive RAG,你了解这种简单的RAG模型吗?

2026-05-31 06:545阅读0评论服务器VPS
  • 内容介绍
  • 文章标签
  • 相关推荐

Hi,我是Hyde,今天的话题是RAG也就是检索增强生成。这是一种用来优化大模型效果的方法。你有没有觉得,现在的大模型虽然很牛,但有时候还是有点“傻”?比如它不知道你公司内部的文档,或者它压根没学过你问的那些冷门知识。这时候,RAG就派上用场了。它就像一个“娱乐”, 给大模型装上了一个“外置硬盘”,让它能查到最新的、最冷门的资料,然后生成更靠谱的答案。今天我们就来聊聊最基础的版本——Naive RAG

什么是Naive RAG?

简单Naive RAG就是最原始、最基础的RAG模型。它不花哨,不炫技,就是“索引-检索-生成”三步走。 人间清醒。 虽然它简单,但它是所有RAG进化的起点。就像你刚学会走路时的“学步车”,虽然不稳,但能走就行。

RAG 系列 01 — Naive RAG

Naive RAG的三步走

记住... 1. 索引阶段把文档切块, 然后用Embedding模型把它们变成向量,存到向量数据库里。

2. 检索阶段用户提问题,系统从向量数据库里找最相关的文档块,我天...。

3. 生成阶段把检索到的文档块喂给大模型,让它生成答案。

Naive RAG的优缺点

优点:

  • 结构简单, 容易上手
  • 适合初学者入门
  • 能解决大模型“知识盲区”的问题

缺点:

  • 检索精度低
  • 语义理解能力差
  • 容易被“幻觉”带跑偏

相关技术对比

技术名称 特点 适用场景
Naive RAG 基础架构,三步走 简单问答,知识库小的场景
Advanced RAG 优化检索,支持查询重写、混合检索等 复杂场景,需要高精度
Modular RAG 模块化设计,可插拔 需要灵活配置的系统
Agentic RAG 动态决策,智能规划 复杂任务,多轮优化

Naive RAG的实现流程

1. 文档分块把文档切成小块,比如按字符数、按句子、按重叠窗口等。

好吧好吧... 2. 向量化用bge系列模型把文档块变成向量,然后存到向量数据库里。

Naive RAG的局限

1. 检索精度低:它用的是向量相似度, 但向量模型不是万能的,有时候会误判,摆烂...。

勇敢一点... 2. 语义理解差:它只是“看起来像”在理解问题,其实很多是靠猜。

换个赛道。 3. 容易被幻觉带偏:如果知识库质量差,它就容易胡说八道。

1. 查询重写比如用查询重写模块把用户问题 得更精准,再拿去检索。

2. 混合检索不只是向量检索,还加点关键词检索,提高召回率,简直了。。

尊嘟假嘟? 3. 重排序先粗排再精排, 比如用双塔模型做初排,再用交叉编码器做精排。

太治愈了。 从Naive RAG到Advanced RAG, 再到Modular RAG,再说说到Agentic RAG,整个过程就像从学步车到自行车,再到电动车,再说说到自动驾驶。

虽然Naive RAG很基础,但它是一切RAG模型的起点。就像你小时候学走路,不也是从学步车开始的吗,何必呢??

相关产品推荐

产品名称 特点 适用场景
Naive RAG 基础架构, 三步走 简单问答,知识库小的场景
Advanced RAG 优化检索,支持查询重写、混合检索等 复杂场景,需要高精度
Modular RAG 模块化设计,可插拔 需要灵活配置的系统
Agentic RAG 动态决策,智能规划 复杂任务,多轮优化

Naive RAG的使用场景

1. 企业内部知识库比如员工手册、产品文档等,用RAG可以快速查到相关条款,我惊呆了。。

乱弹琴。 2. 律法咨询通过RAG,可以快速检索相关法条,提高效率。

3. 医疗咨询通过RAG,可以查到最新的医学文献,辅助医生诊断,稳了!。

1. 知识库质量如果知识库质量差,RAG就容易出错。

啊这... 2. 检索效率如果知识库太大,检索效率会变低。

不如... 3. 语义理解RAG的语义理解能力还是不够强,需要结合大模型。

1. 查询重写用大模型重写用户问题,再拿去检索。

1. 结构简单索引-检索-生成三步走。

2. 适合初学者适合刚接触RAG的团队或个人,对吧?。

3. 解决大模型问题通过外接知识库,弥补大模型的“知识盲区”。

所以 Naive RAG虽然简单,但它是RAG世界的“学步车”,是每个RAG模型的起点。 他破防了。 就像你小时候学走路,不也是从学步车开始的吗?

Hi,我是Hyde,今天的话题是RAG也就是检索增强生成。这是一种用来优化大模型效果的方法。你有没有觉得,现在的大模型虽然很牛,但有时候还是有点“傻”?比如它不知道你公司内部的文档,或者它压根没学过你问的那些冷门知识。这时候,RAG就派上用场了。它就像一个“娱乐”, 给大模型装上了一个“外置硬盘”,让它能查到最新的、最冷门的资料,然后生成更靠谱的答案。今天我们就来聊聊最基础的版本——Naive RAG

什么是Naive RAG?

简单Naive RAG就是最原始、最基础的RAG模型。它不花哨,不炫技,就是“索引-检索-生成”三步走。 人间清醒。 虽然它简单,但它是所有RAG进化的起点。就像你刚学会走路时的“学步车”,虽然不稳,但能走就行。

RAG 系列 01 — Naive RAG

Naive RAG的三步走

记住... 1. 索引阶段把文档切块, 然后用Embedding模型把它们变成向量,存到向量数据库里。

2. 检索阶段用户提问题,系统从向量数据库里找最相关的文档块,我天...。

3. 生成阶段把检索到的文档块喂给大模型,让它生成答案。

Naive RAG的优缺点

优点:

  • 结构简单, 容易上手
  • 适合初学者入门
  • 能解决大模型“知识盲区”的问题

缺点:

  • 检索精度低
  • 语义理解能力差
  • 容易被“幻觉”带跑偏

相关技术对比

技术名称 特点 适用场景
Naive RAG 基础架构,三步走 简单问答,知识库小的场景
Advanced RAG 优化检索,支持查询重写、混合检索等 复杂场景,需要高精度
Modular RAG 模块化设计,可插拔 需要灵活配置的系统
Agentic RAG 动态决策,智能规划 复杂任务,多轮优化

Naive RAG的实现流程

1. 文档分块把文档切成小块,比如按字符数、按句子、按重叠窗口等。

好吧好吧... 2. 向量化用bge系列模型把文档块变成向量,然后存到向量数据库里。

Naive RAG的局限

1. 检索精度低:它用的是向量相似度, 但向量模型不是万能的,有时候会误判,摆烂...。

勇敢一点... 2. 语义理解差:它只是“看起来像”在理解问题,其实很多是靠猜。

换个赛道。 3. 容易被幻觉带偏:如果知识库质量差,它就容易胡说八道。

1. 查询重写比如用查询重写模块把用户问题 得更精准,再拿去检索。

2. 混合检索不只是向量检索,还加点关键词检索,提高召回率,简直了。。

尊嘟假嘟? 3. 重排序先粗排再精排, 比如用双塔模型做初排,再用交叉编码器做精排。

太治愈了。 从Naive RAG到Advanced RAG, 再到Modular RAG,再说说到Agentic RAG,整个过程就像从学步车到自行车,再到电动车,再说说到自动驾驶。

虽然Naive RAG很基础,但它是一切RAG模型的起点。就像你小时候学走路,不也是从学步车开始的吗,何必呢??

相关产品推荐

产品名称 特点 适用场景
Naive RAG 基础架构, 三步走 简单问答,知识库小的场景
Advanced RAG 优化检索,支持查询重写、混合检索等 复杂场景,需要高精度
Modular RAG 模块化设计,可插拔 需要灵活配置的系统
Agentic RAG 动态决策,智能规划 复杂任务,多轮优化

Naive RAG的使用场景

1. 企业内部知识库比如员工手册、产品文档等,用RAG可以快速查到相关条款,我惊呆了。。

乱弹琴。 2. 律法咨询通过RAG,可以快速检索相关法条,提高效率。

3. 医疗咨询通过RAG,可以查到最新的医学文献,辅助医生诊断,稳了!。

1. 知识库质量如果知识库质量差,RAG就容易出错。

啊这... 2. 检索效率如果知识库太大,检索效率会变低。

不如... 3. 语义理解RAG的语义理解能力还是不够强,需要结合大模型。

1. 查询重写用大模型重写用户问题,再拿去检索。

1. 结构简单索引-检索-生成三步走。

2. 适合初学者适合刚接触RAG的团队或个人,对吧?。

3. 解决大模型问题通过外接知识库,弥补大模型的“知识盲区”。

所以 Naive RAG虽然简单,但它是RAG世界的“学步车”,是每个RAG模型的起点。 他破防了。 就像你小时候学走路,不也是从学步车开始的吗?