本文将带领你从零开始搭建基于 RAG(检索增强生成)的知识问答系统,实现文档上传、内容解析与并基于检索文档内容进行智能问答。系统支持 PDF、DOCX、TXT、MD 等多格式文档,通过向量数据库存储文档向量,结合大语言模型(LLM)生成准确回答,并具有流式输出功能提升用户体验,有效解决 LLM 的静态知识局限与 “幻觉” 问题。
核心功能如下:
- 支持上传 PDF/DOCX/TXT/MD 格式文档。
- 自动解析文档内容、进行向量化并存储在向量数据库中。
- 基于用户问题检索相关文档片段,结合检索的文档片段、上下文生成准确回答。
- 支持多轮对话、理解上下文语境和流式输出。
- 提供简洁的 Web 交互界面。

image-
上图展示了基于RAG的知识库问答系统的工作流程,整体可分为文档处理(知识入库)和用户查询(知识检索与回答) 两大阶段,以下分步骤解析:
一、文档处理阶段(知识入库)
- 1. 解析提取信息:对原始文档(如 PDF、Markdown、Word、txt 格式),通过工具(如库、文档解析工具)提取文本内容,转化为字符串形式。
- 2. 文本分割:将提取的长字符串切割为若干 “文本块”(Chunk),确保每个文本块语义相对完整(比如按段落、固定字数分割),便于后续向量化和检索。
- 3. 向量化:利用Embedding 模型(一种将文本转化为数值向量的模型),把每个文本块转化为高维向量。向量的数值能够表征文本的语义信息,语义越相似的文本,向量距离越近。
- 4. 存储:将这些文本向量存入向量数据库(Vector Database),支持后续快速的相似度查询。
二、用户查询阶段(知识检索与回答)
- 5. 用户查询向量化:用户输入查询(如 “介绍下公司的发展历程”)后,同样通过上述Embedding 模型,将查询文本转化为向量。
- 6. 相似度查询:查询向量数据库中,计算 “用户查询向量” 与 “已存储的文本块向量” 的相似度,筛选出TOP K 个最相关的文本块(即与用户问题语义最匹配的知识片段)。
- 7. 结果重排(Rerank):对 TOP K相关的结果进一步做重排,确保最相关的内容优先被选用。
- 8. 组合提示词:将 “用户输入、重排后的知识片段 、上下文补充(可选)、系统提示(如 “基于提供的信息生成简洁回答”)” 整合为结构化提示词(Prompt)。
- 9. 提交 LLM 生成响应:将组合好的提示词输入大语言模型(LLM),LLM 基于这些信息理解用户需求,生成最终的自然语言回答(Response)。
系统采用模块化设计,主要包含以下组件:

image-
- 前端层:基于 Streamlit 构建,负责与用户直接交互,包括提供交互界面、支持文件上传、实现聊天交互、支持连续多轮对话、流式输出。
- 服务层:核心业务逻辑,封装了 RAG 技术的核心流程:
- 文档处理:对用户上传的文档进行解析、分块(将长文档拆分为短文本片段,便于后续处理)。
- 向量化存储:调用嵌入模型,将分块后的文本片段转换为语义向量,再批量写入向量数据库,完成知识入库。
- 检索增强:用户发起查询时,先通过向量数据库检索出Top K 候选文本片段,再调用重排模型对候选结果做精细化排序,筛选出最相关的内容,为 LLM 提供精准知识支撑。
- 上下文记忆:记录对话的上下文信息,使大语言模型能理解多轮对话的逻辑(如连续追问时,模型能基于历史对话回答)。
- LLM 调用:封装对 “大语言模型(LLM)” 的调用逻辑,将 “” 整合为提示词,调用大语言模型生成准确回答,并将结果回传至前端。
- 基础服务层:
为上层业务提供核心技术能力支撑,包含三大核心组件:
- 嵌入模型(Embedding model):将自然语言文本转换为高维语义向量,是实现文本相似度检索的基础。
- 向量数据库(Vector Database):专用于存储和快速检索向量数据的数据库,支持高效的相似性检索(如余弦相似度计算),是 RAG 流程的核心存储载体。
- 重排模型(Reranker Model):对向量检索得到的 Top K 候选结果做二次精准排序,提升 “相关文本片段” 的匹配精度;
- 大语言模型层(LLM):即大语言模型(如 GPT5、Qwen、 DeepSeek等),负责基于用户问题和检索到的文本,生成自然语言回答。
- 前端框架:Streamlit(快速构建交互式 Web 应用)。
- 文档处理:LangChain(文档加载、文本分块、记忆上下文管理)。
- 嵌入模型:支持 Qwen、OpenAI等第三方提供的嵌入模型,以及支持本地部署模型。
- 向量数据库:Chroma(轻量级嵌入式向量数据库)。
- 大语言模型:支持 Qwen、OpenAI、DeepSeek 等模型。
- 文档处理:pypdf(PDF 解析)、docx2txt(DOCX 解析)
- 环境管理:python-dotenv(环境变量管理)。
- 开发语言:Python 3.8+。
4.5.1 项目结构搭建
项目完成后,目录结构如下:
4.5.2 环境准备
一、配置Conda 虚拟环境(安装 Conda,若未安装)
- 下载地址:https://docs.conda.io/en/latest/miniconda.html(conda 轻量化,推荐)
- 安装流程:
- Windows:双击安装包,勾选 “Add Miniconda3 to PATH”(方便命令行调用)
- Mac/Linux:执行安装脚本,按提示完成(默认会添加环境变量)
- 验证安装:打开终端 / 命令提示符,输入,显示版本号则成功
二、创建并激活 Conda 虚拟环境
- 打开终端 / 命令提示符,执行以下命令创建虚拟环境(Python 版本指定 3.11):
过程中会提示安装依赖,输入确认。
- 激活虚拟环境:
激活成功后,终端前缀会显示
- Windows(命令提示符):
- Mac/Linux:
- (可选)配置 Conda 镜像源(加速依赖安装,国内用户推荐):
三、安装项目依赖
- 创建项目文件夹并进入:
- 创建文件,添加依赖包如下:
- 用 pip 安装依赖(Conda 环境中已自带 pip,无需额外配置):
若安装缓慢,也可临时使用中科大镜像或清华 pip 镜像安装(要检查下,不确定是否可用):
四、配置环境变量
- 在项目根目录创建文件(注意文件名前有小数点):
说明:
- 默认使用通义千问的大语言模型以及向量模型。千问 API 密钥获取:登录阿里云百炼大模型平台(https://dashscope.console.aliyun.com/)申请,新用户默认有100W token的免费额度。
- 其它 API 密钥根据实际使用需求配置,无需使用则可留空。
4.5.3 核心模块实现
1 自定义嵌入模型适配(models/custom_dashscope_embedding.py)
该类实现千问嵌入模型与 LangChain 的适配,负责将文本转换为向量。
由于在使用官方提供的类进行向量化时,报错:。该错误原因是 包中的的类在处理文档时,默认的批量大小超过了 DashScope API 的限制。故重写了该类,调整了默认BATCH_SIZE的大小,以解决批量请求超限问题。
在项目目录下创建 文件夹,并在该文件夹下创建文件,代码如下:
2 嵌入模型调用(models/langchain_embedding.py)
该文件统一初始化不同来源的文本嵌入模型。支持千问(Qwen)、OpenAI 和本地 BGE 模型,方便开发者根据需求切换,无需修改核心逻辑。
在文件夹下创建文件,代码如下:
提供了 3 种嵌入模型,只需选择其中一直即可,每种模型的初始化逻辑如下:
- (千问):默认,这里使用的是千问向量模型。必须配置和两个环境变量。
- openai:需在环境变量中配置,若使用第三方代理还需配置(自定义接口地址)。
- local_bge_small:本地加载向量模型,不访问第三方提供的模型服务。这里使用的是北京智源研究院(BAAI)开发的轻量级中文文本嵌入模型,对资源要求不高,适合资源受限场景。
若使用本地加载向量模型,执行以下步骤:
- 配置为 CPU 运行(可改用 GPU);
- 对输出向量归一化(方便后续相似度计算)。
- 手动下载:可从HuggingFace 或 魔塔地址下载模型文件,放到当前目录的路径下。下载文件:(模型配置)、(模型权重)、、、(分词器文件)。设置model_path 为下载的本地路径地址。
- 自动下载:设置为,首次运行时 SDK 会自动下载(需联网)。下载默认存储路径如下:
Windows:“C:Users用户名.cachehuggingface ransformers
Linux/Mac:
下载完成后,后续运行代码会直接从缓存加载,无需重复下载。
- 首先安装必要的 Python 库。
- 下载向量模型文件,两种方式下载:
- 加载模型:通过 LangChain 库中加载。
测试嵌入模型
运行结果如下:

image-
4 LLM模型调用(langchain_llm.py)
基于 LangChain 框架,封装LLM的调用,实现从环境变量读取配置、校验参数,返回模型聊天实例。可适配兼容openAI 接口规范的模型服务,如千问(Qwen)、DeepSeek、OpenAI、智谱(Zhipu)等,可配置MODEL_CONFIG_MAP灵活扩展,默认使用千问模型。
在文件夹下创建文件,代码如下:
测试LLM模型
运行结果如下:
千问 Qwen 教程
image-
5 重排模型调用(reranker_model.py)
初始化重排模型,用于对检索阶段召回的候选文档进行语义相关性重排,提升检索精度。
在文件夹下创建文件,代码如下:
测试重排模型
执行结果如下:

image-
6 RAG 核心服务(rag_service_stream.py)
该类实现完整检索增强生成(RAG)的核心逻辑:文档处理、向量存储、检索和回答生成。基于 LangChain 构建,核心目标是让大语言模型(LLM)结合上传的文档知识进行问答,解决纯 LLM 可能存在的事实性错误、知识时效性等问题。
在项目目录下创建文件夹,在该文件夹下创建文件。
一、引入依赖
二、创建类并初始化
三、文档处理:
处理用户上传的文档,解析、分块、向量化、并存储到向量数据库。
负责将用户上传的文档转换为向量并存储,流程如下:
- 文件有效性校验与临时文件创建:
- 校验文件对象是否包含 (文件名)和 (获取二进制内容)方法;
- 通过 创建临时文件,写入上传文件的二进制内容(避免直接操作内存数据)。
- 文档加载(按格式适配):
根据文件后缀选择对应的 LangChain 加载器,支持 4 种格式:
文件格式 加载器 核心作用 PDF 解析 PDF 每页内容,生成 Document 对象 DOCX 提取 DOCX 文本内容(忽略格式) TXT/MD 读取纯文本,指定 UTF-8 编码 - 文本分块(解决长文本问题):
使用 进行智能分块,核心配置:
- :每个文本片段最多 1000 字符(适配 LLM 上下文窗口);
- :片段间重叠 200 字符(避免上下文断裂,比如一个事件描述跨片段);
- :优先按大分隔符(如 段落)分割,分割失败再用小分隔符(如 中文句末),最大程度保证语义完整性。
- 向量化存储:
负责将文本(问题、文档片段)转换为高维向量,是「检索」的核心基础,并存入向量数据库中。
- 若向量数据库已存在( 非空),直接添加新分块;
- 若不存在,通过 初始化数据库并写入分块向量,同时指定持久化路径。
- 临时文件清理:
通过 块确保无论处理成功 / 失败,临时文件都会被删除,避免磁盘占用。
四、问答生成:
该方法是 RAG(检索增强生成)的核心执行入口,实现检索相关文档→重排→结合历史对话→调用LLM流式生成输出。核心目标是:让 LLM 基于「用户问题 + 历史对话 + 相关文档片段」生成精准、有依据的答案,同时支持上下文连贯对话,流式输出。
流程如下:
- 前置校验
- 检查向量数据库是否初始化(即是否已上传文档) 。
- 检查用户问题是否有效(非空字符串)。
- 对话历史加载
通过 管理对话历史,配置 ,仅保留最近 50 轮对话(1 轮 = 1 次用户提问 + 1 次助手回答),既保证对话连贯性,又避免长对话导致的 Token 超限问题。
- 检索相关文档(获取回答的事实依据)
基于向量检索技术,从已上传文档中提取与用户问题语义相似的文本片段:
- 将向量数据库转为检索器();
- 配置 :检索与用户问题最相关的 5 个文本片段( 值可调整,平衡相关性与上下文长度);
- 提取检索结果的文本内容,拼接为 (供 LLM 参考)。
- 检索文档重排(提升文档相关性精度)
对原始检索结果进行精细化筛选,进一步提升文档与问题的匹配度:
- 若配置了重排模型(),则调用模型对原始检索的文本片段进行重排;
- 重排规则:按「相关性分数」筛选 Top-N 个片段( 可配置),并过滤分数低于阈值()的片段;
- 降级处理:若重排后无符合条件的片段,则默认选取原始检索结果的前 N 个片段。
- 组合提示词
- 初始化上下文对话列表:combine_contexts = []。
- 添加历史对话记忆:从记忆中加载最近对话列表(Message对象)到上下文对话中,让 LLM 清晰识别历史交互逻辑。
- 定义提示词模板():定义 LLM 的角色、回答规则,如:仅使用提供的文档片段回答,无相关信息时明确告知,不编造内容。
- 格式化提示模板:将(检索到的文档)、(当前问题) 格式化提示模板,生成结构化的 ,并作为用户输入添加到上下文对话中。
- 流式调用LLM输出结果及记忆更新
实现流式输出回答,并将本次交互存入记忆以支撑后续对话:
流式输出提升用户体验,记忆更新保障下一轮对话可复用本次交互信息,维持上下文连贯。
- 流式生成回答:调用 ,将完整上下文提交给 LLM,逐块读取生成器中的响应片段并实时返回给用户,同时将片段拼接为 (完整答案);
- 对话记忆更新:当完整答案生成后,将本次问答对(用户问题 + 完整答案 )存入记忆 ,供下一轮对话。
五、清空数据库
支持重新上传文档、清空历史知识。
清空 Chroma 向量数据库的集合内数据()。
7 前端界面(main.py)
通过 Streamlit 框架搭建 Web 交互界面,通过 “上传文档→提问” 的操作,获得基于文档的精准回答,同时支持流式输出(边生成边展示)和聊天连续性。
交互流程如下:
- 准备阶段:用户打开网页,看到侧边栏的 “文档上传” 和主界面的聊天区域;
- 上传文档:用户在侧边栏选择 1 个或多个文档(PDF/DOCX 等),点击上传,系统显示 “正在处理文档…”,完成后提示 “处理成功”;
- 提问交互:用户在底部输入框提问(如 “公司的发展历程?”),点击发送;
- 流式回答:系统显示 “思考中”,并开始逐字 / 逐句显示回答(流式输出),同时将用户问题和助手回答保存到聊天历史;
- 重置操作:若用户想切换文档,可点击侧边栏 “清空知识库”,系统删除所有文档和聊天历史,恢复初始状态。
- 确保文件已正确配置 API 密钥
- 在项目根目录下,打开终端执行命令:
- 浏览器会自动打开界面,使用流程:
- 在侧边栏上传文档(支持多文件)。
- 等待文档处理完成(会显示处理成功提示)。
- 在底部输入框提问,助手会基于上传的文档内容回答。

image-

image-
完整代码位于项目根目录下:
完整代码见:
- GitHub 仓库:https://github.com/tinyseeking/tidy-agent-practice/tree/main/practice_cases/simple_rag_assistant
- Gitee 仓库(国内):https://gitee.com/tinyseeking/tidy-agent-practice/tree/main/practice_cases/simple_rag_assistant
本项目构建了一个功能完整的基础 RAG 问答系统,采用模块化设计保证了代码的可维护性和可扩展性。你可以在此基础上,进一步拓展核心能力与使用体验,如:
- 增加更多文档格式支持(如 PPT、Excel)和多模态识别。
- 实现文档分段预览和定位。
- 添加用户认证和权限管理。
- 优化检索策略,实现更精准的内容匹配与高效召回。
- 增加模型选择功能,允许用户切换不同的 LLM。
通过该项目,你将掌握 RAG 技术的核心原理与工程化实现方法,为后续搭建更复杂的智能检索增强生成(RAG)应用奠定技术基础。
假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。
接下来告诉你一条最快的邪修路线,
3个月即可成为模型大师,薪资直接起飞。

阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【】👇👇






配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【】👇👇

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/275558.html原文链接:https://javaforall.net
