一、模型分类
生成式 AI
├─ 大语言模型(LLM)→ 可完成分析式任务(文本分类/情感分析)
├─ 视觉大模型(VLM)→ 可完成分析式任务(图像分类/OCR)
└─ 多模态大模型(MLLM)→ 可完成分析式任务(视频理解/语音识别)
分析式 AI(传统判别模型)
├─ 图像分类、风控预测、推荐系统等
└─ 不具备原千问 Qwen 教程生内容生成能力

1.1大语言模型
1.1 .1模型分类详解
- 大语言模型(LLM)
- 全称:Large Language Model
- 核心能力:专注于文本理解与生成,具备强大的语言推理、对话、创作、代码等能力
- 代表模型:DeepSeek、Qwen3、OPT-4-turbo、GPT-4o、Gemini 1.5、Llama 3
- 视觉大模型(VLM)
- 全称:Vision-Language Model(视觉语言模型)
- 核心能力:融合视觉与语言,实现图像理解、图文问答、视觉检索等功能,是连接图像与文本的桥梁
- 代表模型:CLIP、BLIP-2、LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V、Gemini 系列
- 多模态大模型
- 全称:Multimodal Large Language Model(MLLM)
- 核心能力:支持文本、图像、音频、视频等多种模态的统一理解与生成,可处理更复杂的跨模态任务
- 代表模型:GPT-4o、Gemini 系列、Qwen-VL、LLaVA、Emu3.5、智谱 GLM-4V
三者关系
- LLM 是基础,专注纯文本交互
- VLM 是 LLM 的视觉扩展,聚焦图文交互
- 多模态大模型 是更高级形态,可同时处理文本、图像、音频、视频等多种模态,是当前大模型发展的主流方向
关键差异总结
- 模态范围:LLM 仅处理文本 → VLM 处理图文 → MLLM 处理多模态(文本 / 图像 / 音频 / 视频)
- 能力侧重:LLM 是语言能力核心,VLM 是视觉与语言的桥梁,MLLM 是更全面的通用智能形态
- 技术演进:LLM → VLM → MLLM 是大模型从单一文本到多模态融合的典型发展路径
💡 补充说明
- 部分模型(如 GPT-4o、Gemini 1.5)同时属于 LLM 和 MLLM,因为它们在保留强文本能力的基础上,扩展了多模态能力。
- VLM 可视为 MLLM 的子集,是多模态能力中最成熟的图文交互形态。
1.1.2 模型选型【modelscope.cn/my/overview】
1.1.3🚀 大语言模型(LLM)完整训练流程
大模型的训练通常分为 预训练 → 监督微调 → 对齐学习(强化学习等) 三个核心阶段,部分模型还会加入后续优化步骤:
- 预训练(Pre-training)
- 目标:让模型学习通用语言知识和基础规律
- 数据:海量无标注文本数据(书籍、网页、代码等)
- 方法:自监督学习(Next Token Prediction,预测下一个词)
- 结果:得到基座模型(Base Model),能续写文本,但不会 “听懂人话”
- 监督微调(Supervised Fine-Tuning, SFT)
- 目标:让模型学会遵循人类指令,完成具体任务
- 数据:高质量指令 – 回答对(人工标注或精选对话)
- 方法:有监督学习,用指令数据微调基座模型
- 结果:得到SFT 模型,能理解指令、生成符合要求的回答
- 对齐学习(Alignment Learning)
这一步是让模型更 “听话、安全、有用”,主流有两种方式:
- 强化学习(RLHF / PPO)
-
- 先训练奖励模型(RM):对模型输出打分,判断 “是否更像人类偏好”
- 再用 PPO 算法:让 SFT 模型向高分方向优化,生成更符合人类价值观的回答
- 直接偏好优化(DPO / KTO)
-
- 更高效的替代方案:直接用 “偏好数据”(好回答 vs 坏回答)微调,跳过奖励模型
- 结果:得到对齐模型(Chat Model),也就是我们日常使用的对话大模型
- 后续优化(可选)
- 持续预训练:补充新领域数据,提升垂直领域能力
- 蒸馏(Distillation):把大模型压缩成小模型,方便部署
- 工具调用微调:让模型学会调用计算器、搜索引擎等外部工具
- 多模态扩展:加入图像、音频、视频模态训练,成为多模态大模型
📝 流程总结
预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型
📝 流程总结
预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型
1.1.4 技术方向
- 生成式AI与分析式AI
生成式AI以LLM、多模态模型为核心,聚焦文本、图像、音视频等内容的生成与创作,具备创造性能力;分析式AI侧重数据的识别、分类、预测与判断,是传统AI的核心形态,二者协同支撑各类AI应用落地。
- Function call(函数调用)
核心是让大模型根据用户需求及任务场景,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际操作,打通模型能力与现实任务的衔接。
- MCP模型上下文协议
作为模型间、模型与系统间的标准化通信协议,主要用于统一传递上下文信息、任务状态、历史交互记录等,提升多模型协作的一致性与效率,降低系统集成成本。
- RAG检索增强生成
融合检索与生成两大核心能力,先通过检索模块从外部知识库、数据库中获取精准相关信息,再输入大模型进行整合生成,有效解决模型“幻觉”问题,提升回答的准确性与可溯源性。
- Embedding通用技术
将文本、图像、音频等非结构化数据,转化为计算机可识别、可计算的向量表示,是语义检索、相似度匹配、数据分类、聚类等各类AI任务的基础支撑技术。
- Prompt工程(提示词工程)
通过科学设计提示指令,包括角色设定、任务描述、格式约束、逻辑引导等,充分激发大模型的能力,优化输出质量与准确性,降低模型使用门槛。
- Agent开发(智能体开发)
依托大模型的推理能力,赋予其自主规划、记忆管理、工具调用、多步决策的能力,开发可独立完成复杂、多步骤任务的AI智能体,拓展AI的应用边界。
1.1.5 名词解释
- token(令牌)
大模型处理文本的最小单位,可理解为“词元”,单个汉字、英文单词、标点符号或片段都可能作为一个token,模型的输入输出长度、计费均以token为单位。
- temperature(温度)
控制大模型输出随机性的参数,取值范围0~1。值越高,输出越随机、有创意;值越低,输出越确定、严谨,趋近于固定答案。
- Transformer
大模型的核心基础架构,基于自注意力机制设计,能够高效捕捉文本、图像等数据的上下文关联,是当前LLM、多模态模型的核心技术支撑。
- topP(核采样)
与temperature配合使用的输出控制参数,又称“累积概率采样”,通过设定一个概率阈值(0~1),仅从概率累积和达到该阈值的候选token中采样,平衡输出的多样性与合理性。
- 联网搜索
大模型获取外部实时信息的能力,通过调用搜索引擎接口,检索最新、未包含在模型训练数据中的内容,解决模型“知识滞后”问题,提升回答的时效性。
- 模型局限
大模型自身存在的固有不足,主要包括知识滞后(受训练数据截止时间限制)、生成幻觉(输出虚假但看似合理的内容)、逻辑谬误、对复杂任务的推理能力有限,以及存在偏见(受训练数据中潜在的偏见信息影响,可能输出带有性别、种族、职业等偏见的内容)等。
- RAG(检索增强生成)
全称Retrieval-Augmented Generation,融合检索与生成的技术,先从外部知识库检索与问题相关的精准信息,再输入大模型整合生成回答,核心是解决模型幻觉、提升回答准确性。
- prompt(提示词)
用户输入给大模型的指令、问题或引导语,是大模型理解任务需求的核心依据,优质的prompt可有效激发模型能力,优化输出效果(对应前文Prompt工程)。
- functioncall(函数调用)
大模型根据用户需求,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际任务,打通模型能力与现实场景的衔接(对应前文Function call技术方向)。
- 上下文(不同模型上下文大小限制不同,在100~200k左右)
用户与大模型的历史交互记录、当前输入的指令及相关信息,大模型通过读取上下文,理解对话逻辑、保持回答的连贯性与一致性。
- Agent(智能体)
基于大模型开发的具备自主能力的AI实体,能够自主理解任务、规划步骤、管理记忆、调用工具,实现多步推理,可独立完成复杂、连贯的任务(对应前文Agent开发技术方向)。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/278512.html原文链接:https://javaforall.net
