AI大模型学习笔记（一）

一、模型分类

生成式 AI

├─ 大语言模型（LLM）→ 可完成分析式任务（文本分类/情感分析）

├─ 视觉大模型（VLM）→ 可完成分析式任务（图像分类/OCR）

└─ 多模态大模型（MLLM）→ 可完成分析式任务（视频理解/语音识别）

分析式 AI（传统判别模型）

├─ 图像分类、风控预测、推荐系统等

└─ 不具备原千问 Qwen 教程生内容生成能力

AI大模型学习笔记（一）0

1.1大语言模型

1.1 .1模型分类详解

大语言模型（LLM）

全称：Large Language Model
核心能力：专注于文本理解与生成，具备强大的语言推理、对话、创作、代码等能力
代表模型：DeepSeek、Qwen3、OPT-4-turbo、GPT-4o、Gemini 1.5、Llama 3

视觉大模型（VLM）

全称：Vision-Language Model（视觉语言模型）
核心能力：融合视觉与语言，实现图像理解、图文问答、视觉检索等功能，是连接图像与文本的桥梁
代表模型：CLIP、BLIP-2、LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V、Gemini 系列

多模态大模型

全称：Multimodal Large Language Model（MLLM）
核心能力：支持文本、图像、音频、视频等多种模态的统一理解与生成，可处理更复杂的跨模态任务
代表模型：GPT-4o、Gemini 系列、Qwen-VL、LLaVA、Emu3.5、智谱 GLM-4V

三者关系

LLM 是基础，专注纯文本交互
VLM 是 LLM 的视觉扩展，聚焦图文交互
多模态大模型是更高级形态，可同时处理文本、图像、音频、视频等多种模态，是当前大模型发展的主流方向

分类英文全称核心能力典型输入 / 输出代表模型应用场景大语言模型（LLM） Large Language Model 纯文本理解、生成、推理、对话、创作、代码输入：文本输出：文本 GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek 聊天对话、内容创作、代码开发、知识问答、文本摘要、翻译视觉大模型（VLM） Vision-Language Model 图文跨模态理解、图像描述、视觉问答、图文检索输入：文本 + 图像输出：文本 / 图像 LLaVA、Qwen-VL、DeepSeek-VL2、CLIP、BLIP-2 图像识别、图文问答、视觉检索、OCR、图像内容理解多模态大模型（MLLM） Multimodal Large Language Model 多模态统一理解与生成，支持文本、图像、音频、视频等输入：文本 + 图像 + 音频 + 视频输出：文本 / 图像 / 音频 / 视频 GPT-4o、Gemini 系列、Qwen-VL、Emu3.5 视频理解、语音交互、多模态创作、复杂场景推理、沉浸式交互

关键差异总结

模态范围：LLM 仅处理文本 → VLM 处理图文 → MLLM 处理多模态（文本 / 图像 / 音频 / 视频）
能力侧重：LLM 是语言能力核心，VLM 是视觉与语言的桥梁，MLLM 是更全面的通用智能形态
技术演进：LLM → VLM → MLLM 是大模型从单一文本到多模态融合的典型发展路径

💡 补充说明

部分模型（如 GPT-4o、Gemini 1.5）同时属于 LLM 和 MLLM，因为它们在保留强文本能力的基础上，扩展了多模态能力。
VLM 可视为 MLLM 的子集，是多模态能力中最成熟的图文交互形态。

1.1.2 模型选型【modelscope.cn/my/overview】

应用场景推荐模型类型优先选择的代表模型选型理由纯文本对话 / 写作 / 代码 LLM GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek 文本理解与生成能力最强，响应速度快，成本更低图文问答 / 图像理解 / OCR VLM / MLLM LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V 专注图文交互，图像解析精度高，适合轻量化视觉任务视频理解 / 语音交互 MLLM GPT-4o、Gemini 系列、Qwen-VL 原生支持视频帧分析、语音转文本及多模态推理多模态内容创作（图文 / 音视频） MLLM Emu3.5、GPT-4o、Gemini 系列支持文本生成图像 / 视频、图像生成文本等跨模态创作本地部署 / 低资源环境轻量 LLM/VLM Llama 3-8B、Qwen-7B、LLaVA-7B 参数量小，可在消费级 GPU/CPU 上运行，隐私性好企业级 API 调用商用 MLLM GPT-4o、文心一言 4.0、通义千问 4.0 稳定性高、接口完善、有企业级服务支持

1.1.3🚀 大语言模型（LLM）完整训练流程

大模型的训练通常分为预训练 → 监督微调 → 对齐学习（强化学习等）三个核心阶段，部分模型还会加入后续优化步骤：

预训练（Pre-training）

目标：让模型学习通用语言知识和基础规律
数据：海量无标注文本数据（书籍、网页、代码等）
方法：自监督学习（Next Token Prediction，预测下一个词）
结果：得到基座模型（Base Model），能续写文本，但不会 “听懂人话”

监督微调（Supervised Fine-Tuning, SFT）

目标：让模型学会遵循人类指令，完成具体任务
数据：高质量指令 – 回答对（人工标注或精选对话）
方法：有监督学习，用指令数据微调基座模型
结果：得到SFT 模型，能理解指令、生成符合要求的回答

对齐学习（Alignment Learning）

这一步是让模型更 “听话、安全、有用”，主流有两种方式：

强化学习（RLHF / PPO）
- 先训练奖励模型（RM）：对模型输出打分，判断 “是否更像人类偏好”
- 再用 PPO 算法：让 SFT 模型向高分方向优化，生成更符合人类价值观的回答
直接偏好优化（DPO / KTO）
- 更高效的替代方案：直接用 “偏好数据”（好回答 vs 坏回答）微调，跳过奖励模型
结果：得到对齐模型（Chat Model），也就是我们日常使用的对话大模型

后续优化（可选）

持续预训练：补充新领域数据，提升垂直领域能力
蒸馏（Distillation）：把大模型压缩成小模型，方便部署
工具调用微调：让模型学会调用计算器、搜索引擎等外部工具
多模态扩展：加入图像、音频、视频模态训练，成为多模态大模型

📝 流程总结

预训练（基座模型） → 监督微调（SFT模型） → 对齐学习（RLHF/DPO） → 对话大模型

阶段常用名字做什么（一句话）输入数据输出模型 ① 预训练Pre-training 学语言、知识、规律，打下基础海量无标注文本基座模型 Base LLM ② 监督微调SFT 学会听懂指令、正常对话指令 – 回答对(问答数据) SFT 模型 ③ 奖励模型训练Reward Modeling 教模型 “什么回答更好” 好坏对比回答奖励模型 RM ④ 强化学习RLHF / PPO 让模型越说越像人、更安全奖励模型打分对齐后的对话模型 ⑤ DPO/you 好直接对齐（可选）替代强化学习，更简单偏好对比数据最终对话模型

📝 流程总结

预训练（基座模型） → 监督微调（SFT模型） → 对齐学习（RLHF/DPO） → 对话大模型

1.1.4 技术方向

生成式AI与分析式AI

生成式AI以LLM、多模态模型为核心，聚焦文本、图像、音视频等内容的生成与创作，具备创造性能力；分析式AI侧重数据的识别、分类、预测与判断，是传统AI的核心形态，二者协同支撑各类AI应用落地。

Function call（函数调用）

核心是让大模型根据用户需求及任务场景，自动识别并调用外部工具、接口或函数，完成查询、计算、数据交互等实际操作，打通模型能力与现实任务的衔接。

MCP模型上下文协议

作为模型间、模型与系统间的标准化通信协议，主要用于统一传递上下文信息、任务状态、历史交互记录等，提升多模型协作的一致性与效率，降低系统集成成本。

RAG检索增强生成

融合检索与生成两大核心能力，先通过检索模块从外部知识库、数据库中获取精准相关信息，再输入大模型进行整合生成，有效解决模型“幻觉”问题，提升回答的准确性与可溯源性。

Embedding通用技术

将文本、图像、音频等非结构化数据，转化为计算机可识别、可计算的向量表示，是语义检索、相似度匹配、数据分类、聚类等各类AI任务的基础支撑技术。

Prompt工程（提示词工程）

通过科学设计提示指令，包括角色设定、任务描述、格式约束、逻辑引导等，充分激发大模型的能力，优化输出质量与准确性，降低模型使用门槛。

Agent开发（智能体开发）

依托大模型的推理能力，赋予其自主规划、记忆管理、工具调用、多步决策的能力，开发可独立完成复杂、多步骤任务的AI智能体，拓展AI的应用边界。

1.1.5 名词解释

token（令牌）

大模型处理文本的最小单位，可理解为“词元”，单个汉字、英文单词、标点符号或片段都可能作为一个token，模型的输入输出长度、计费均以token为单位。

temperature（温度）

控制大模型输出随机性的参数，取值范围0~1。值越高，输出越随机、有创意；值越低，输出越确定、严谨，趋近于固定答案。

Transformer

大模型的核心基础架构，基于自注意力机制设计，能够高效捕捉文本、图像等数据的上下文关联，是当前LLM、多模态模型的核心技术支撑。

topP（核采样）

与temperature配合使用的输出控制参数，又称“累积概率采样”，通过设定一个概率阈值（0~1），仅从概率累积和达到该阈值的候选token中采样，平衡输出的多样性与合理性。

联网搜索

大模型获取外部实时信息的能力，通过调用搜索引擎接口，检索最新、未包含在模型训练数据中的内容，解决模型“知识滞后”问题，提升回答的时效性。

模型局限

大模型自身存在的固有不足，主要包括知识滞后（受训练数据截止时间限制）、生成幻觉（输出虚假但看似合理的内容）、逻辑谬误、对复杂任务的推理能力有限，以及存在偏见（受训练数据中潜在的偏见信息影响，可能输出带有性别、种族、职业等偏见的内容）等。

RAG（检索增强生成）

全称Retrieval-Augmented Generation，融合检索与生成的技术，先从外部知识库检索与问题相关的精准信息，再输入大模型整合生成回答，核心是解决模型幻觉、提升回答准确性。

prompt（提示词）

用户输入给大模型的指令、问题或引导语，是大模型理解任务需求的核心依据，优质的prompt可有效激发模型能力，优化输出效果（对应前文Prompt工程）。

functioncall（函数调用）

大模型根据用户需求，自动识别并调用外部工具、接口或函数，完成查询、计算、数据交互等实际任务，打通模型能力与现实场景的衔接（对应前文Function call技术方向）。

上下文（不同模型上下文大小限制不同，在100～200k左右）

用户与大模型的历史交互记录、当前输入的指令及相关信息，大模型通过读取上下文，理解对话逻辑、保持回答的连贯性与一致性。

Agent（智能体）

基于大模型开发的具备自主能力的AI实体，能够自主理解任务、规划步骤、管理记忆、调用工具，实现多步推理，可独立完成复杂、连贯的任务（对应前文Agent开发技术方向）。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/278512.html原文链接：https://javaforall.net

AI大模型学习笔记（一）

关于作者

全栈程序员-站长

相关推荐

千问AI眼镜G1现货开售,用户还可通过千问APP一句话下单

林俊旸告别阿里，千问站在了“十字路口”

Qwen3.5-27B开源镜像部署教程：免配置Web界面+API双接口快速上手

通义千问Qwen免费上线“深入研究”功能十几分钟完成数小时任务

使用Spring AI Alibaba构建智能体Agent

如何创建和使用AI智能体：从通义千问到讯飞星火的全面解析