Spring Boot3+Vue3极速整合： 10分钟搭建DeepSeek AI对话系统(进阶)

在上次实战指南《Spring Boot3+Vue2极速整合: 10分钟搭建DeepSeek AI对话系统》引发读者热议后，我通过200+真实用户反馈锁定了几个问题进行优化进阶处理：

本文作为系统升级的进阶指南：

技术演进

环境规格：全程基于Windows11平台（AMD Ryzen5 6600H/16GB内存/RTX3050ti 4GB显存），采用环境管理方案。

项目搭建脚本

预览图

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_java

组件代码更新(DeepSeek生成)

通过 ConcurrentHashMap、List 的简洁设计，在保证线程安全的前提下实现了基本的上下文管理功能，后续可通过添加窗口限制、持久化存储等机制进一步提升商业应用场景下的可靠性。

流程图

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_java_02

代码实现

任务管理器跑问题的时候GPU已经满了。

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_spring_03

上下文连贯调试

1、什么是接口幂等性

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_List_04

后端log如下：

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_spring_05

2、为什么需要实现幂等性

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_spring_06

后端log如下：

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_java_07

3、引入幂等性后对系统的影响

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_List_08

后端log如下：

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_java_09

到这里其实文章就可以结束了，不过肯定有朋友和我一样对如何训练模型感兴趣，下面我介绍下是如何训练本地大模型，有经验的读者可以自己尝试，建议C盘100G+，并且有Python技能背景，里面的坑还是很多的，下面进入正题(毕竟不是专业的，如有问题欢迎讨论，。

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_spring_10

LLaMA-Factory是一个在github上开源的，专为大模型训练设计的平台。项目提供中文说明，可以参考官方文档：

本次目的就是借助 LLaMA-Factory 来调试 Hugging Face 上的模型，并导出成本地 Ollama 可运行的专业小模型。

使用零代码命令行与 Web UI 轻松微调百余种大模型

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_List_11

Hugging Face 是一个致力于推动自然语言处理（NLP）技术发展的开源社区与创新公司。作为 NLP 领域的领军者，Hugging Face 为开发者提供了丰富的工具和资源，涵盖从模型训练、微调到部署的全流程解决方案。其核心使命是通过开源共享，降低 NLP 技术的应用门槛，让开发者能够轻松获取并利用最先进的模型和技术。

Hugging Face 的贡献不仅限于 NLP 领域，还扩展到了图像、音频等多模态任务，为人工智能的多领域融合提供了强大支持。其平台汇集了海量的预训练模型和高质量数据集，涵盖了从文本生成、情感分析到图像分类、语音识别等多种应用场景。这些资源不仅为研究者提供了强大的实验基础，也为企业级应用提供了高效的解决方案。

凭借其开放性和创新性，Hugging Face 已成为全球开发者和研究者的重要技术枢纽，持续推动着人工智能技术的普及与进步。无论是学术研究还是工业应用，Hugging Face 都扮演着不可或缺的角色，为 AI 社区注入了源源不断的活力。

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)_spring_12

这个还是很好玩的，比如自己写个调大模型的例子，使用 transformers 就可以用下面代码调用 Hugging Face 上的开源模型：

控制台输出LOG

LoRA（Low-Rank Adaptation of Large Language Models）是一种创新的低秩适应技术，专为高效微调大规模语言模型而设计。最初应用于自然语言处理（NLP）领域，LoRA 技术通过引入低秩矩阵分解，仅需训练少量参数即可实现对 GPT-3 等大型模型的精准微调。相较于传统全参数微调方法，LoRA 显著降低了计算资源需求，同时大幅减少了训练成本，使其成为资源受限环境下的理想选择。

LoRA 的使用流程简洁高效。用户只需下载相应的 LoRA 模型和基础 checkpoint 模型，并将其部署到指定目录即可。在实际应用中，LoRA 模型可与主模型协同工作，通过调整权重参数精确控制生成结果。其核心优势包括：