一篇详解！以DeepSeek-R1、Qwen3为例搞懂如何微调推理大模型

全栈程序员-站长 • 2026年3月13日上午9:34 • 千问 • 阅读 1

一篇详解！以DeepSeek-R1、Qwen3为例搞懂如何微调推理大模型

首先先简单介绍下两个系列的模型：

DeepSeek-R1是由深度求索公司推出的首款推理模型，该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型，还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型，在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例，为您介绍如何微调该系列模型。

Qwen3是阿里云通义千问团队于2025年4月29日发布的最新千问 Qwen 教程大型语言模型系列，包含2个MoE模型和6个Dense模型。其基于广泛的训练，在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型，以及其对应的Base模型、FP8模型，总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。

刚好最近在做一个推理训练任务，现在有现成的训练集，推理模型这么强的情况下，怎么把之前传统对话大模型+指令微调训练模式转变成推理大模型+指令微调任务？

后训练广义可能范围比较大，包括微调、强化学习等。 可能我们构造强化学习数据集或者思维链数据集的成本比较高的，所以今天咱们就聊一聊怎么偷懒地将把之前的指令数据集或者指令微调的工作推演到推理大模型训练上呢？有没有比较省事或者比较规范的做法呢？

通过能力比较强的推理大模型底座将之前指令数据集蒸馏为思维链数据集，然后进行筛选过滤。

具体做法我们可以参考刘聪大佬开源的Chinese-DeepSeek-R1-Distill-data-110k，大致流程是调用企业版满血R1 API，然后数据生成结果进行了二次校验，并保留了评价分数：

针对Math和Exam数据，先利用Math-Verify进行校对，无法规则抽取结果的数据，再利用Qwen2.5-72B-Instruct模型进行打分，正确为10分，错误为0分。
针对其他数据，直接利用Qwen2.5-72B-Instruct模型从无害性、有用性、正确性/完整性三个角度进行打分，分值范围为0-10分。

下面以一个推理数据集为例，

medical-o1-reasoning-SFT医学推理数据集，该数据集基于医学可验证问题和 LLM 验证器构建,这个数据集构造过程和方法1提到的差不多。方法1强调如何通过推理大模型蒸馏指令数据集，方法2强调如何通过已有COT构造推理数据集

以下面模板为例：

有了模板下面我们直接通过占位符填充COT字段即可

那么还有一种方式就是，我们是不是也可以直接通过比较”素”的指令数据集训练R1类似模型呢，答案是可以！

这里“素”指的是只有instruction/input/output，没有推理思维链类似字段

笔者实测过，这样微调出来的效果是丢失了思考过程，但是效果发现是没问题，设置32B推理模型超过了72B对话模型。

关于DeepSeek-R1微调，LLaMA Factory有些讨论或者踩坑，我下面直接贴了链接，有兴趣大家可以看下：

LLaMA Factory：微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器

https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory_deepseek_r1_distill_7b

deepseek r1微调 #7027

https://github.com/hiyouga/LLaMA-Factory/issues/7027

针对下游任务，如果我们不想要思考过程，可以直接采用第三种方法，这种微调简单粗暴，效果也比传统同参数对话模型好一些。如果想要思考过程，可以参考方法1和方法2来准备数据，然后采用微调的方式进行训练即可。

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，！

一篇详解！以DeepSeek-R1、Qwen3为例搞懂如何微调推理大模型

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以，免费领取【】

一篇详解！以DeepSeek-R1、Qwen3为例搞懂如何微调推理大模型

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/258082.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.6K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

DeepSeek + 即梦、可灵、豆包、智谱清言、通义万相、文心一言，这6款免费的AI绘画工具，谁更好用？

上一篇 2026年3月13日上午9:33

腾讯元宝文生图功能升级：仅需一句话，轻松生成高质量图片

下一篇 2026年3月13日上午9:34

千问

使用AMD CPU实例部署千问Qwen-Audio-Chat

使用AMD CPU实例部署千问Qwen-Audio-Chat

Ai探索者
2026年3月12日
3
千问

阿里千问：全员大会吃豆包图是 AI 生成的

阿里千问：全员大会吃豆包图是 AI 生成的

Ai探索者
2026年3月12日
2
千问

使用AMD CPU实例部署千问Qwen-VL-Chat

使用AMD CPU实例部署千问Qwen-VL-Chat

全栈程序员-站长
2026年3月13日
2
千问

怎么关掉qwen3思考过程

怎么关掉qwen3思考过程

全栈程序员-站长
2026年3月12日
1
千问

有了通义和夸克，阿里为何再推千问App？

有了通义和夸克，阿里为何再推千问App？

全栈程序员-站长
2026年3月13日
4
千问

OpenClaw从入门到入土(macos+千问api+QQ+卸载)

OpenClaw从入门到入土(macos+千问api+QQ+卸载)

Ai探索者
2026年3月13日
1

关注全栈程序员社区公众号