AI大模型学习笔记(一)

AI大模型学习笔记(一)

一、模型分类

生成式 AI

├─ 大语言模型(LLM)→ 可完成分析式任务(文本分类/情感分析)

├─ 视觉大模型(VLM)→ 可完成分析式任务(图像分类/OCR)

└─ 多模态大模型(MLLM)→ 可完成分析式任务(视频理解/语音识别)

分析式 AI(传统判别模型)

├─ 图像分类、风控预测、推荐系统等

└─ 不具备原千问 Qwen 教程生内容生成能力

AI大模型学习笔记(一)0

1.1大语言模型

1.1 .1模型分类详解

  1. 大语言模型(LLM)
  • 全称:Large Language Model
  • 核心能力:专注于文本理解与生成,具备强大的语言推理、对话、创作、代码等能力
  • 代表模型:DeepSeek、Qwen3、OPT-4-turbo、GPT-4o、Gemini 1.5、Llama 3

  1. 视觉大模型(VLM)
  • 全称:Vision-Language Model(视觉语言模型)
  • 核心能力:融合视觉与语言,实现图像理解、图文问答、视觉检索等功能,是连接图像与文本的桥梁
  • 代表模型:CLIP、BLIP-2、LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V、Gemini 系列

  1. 多模态大模型
  • 全称:Multimodal Large Language Model(MLLM)
  • 核心能力:支持文本、图像、音频、视频等多种模态的统一理解与生成,可处理更复杂的跨模态任务
  • 代表模型:GPT-4o、Gemini 系列、Qwen-VL、LLaVA、Emu3.5、智谱 GLM-4V

三者关系

  • LLM 是基础,专注纯文本交互
  • VLM 是 LLM 的视觉扩展,聚焦图文交互
  • 多模态大模型 是更高级形态,可同时处理文本、图像、音频、视频等多种模态,是当前大模型发展的主流方向
分类 英文全称 核心能力 典型输入 / 输出 代表模型 应用场景 大语言模型(LLM) Large Language Model 纯文本理解、生成、推理、对话、创作、代码 输入:文本输出:文本 GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek 聊天对话、内容创作、代码开发、知识问答、文本摘要、翻译 视觉大模型(VLM) Vision-Language Model 图文跨模态理解、图像描述、视觉问答、图文检索 输入:文本 + 图像输出:文本 / 图像 LLaVA、Qwen-VL、DeepSeek-VL2、CLIP、BLIP-2 图像识别、图文问答、视觉检索、OCR、图像内容理解 多模态大模型(MLLM) Multimodal Large Language Model 多模态统一理解与生成,支持文本、图像、音频、视频等 输入:文本 + 图像 + 音频 + 视频输出:文本 / 图像 / 音频 / 视频 GPT-4o、Gemini 系列、Qwen-VL、Emu3.5 视频理解、语音交互、多模态创作、复杂场景推理、沉浸式交互

关键差异总结

  1. 模态范围:LLM 仅处理文本 → VLM 处理图文 → MLLM 处理多模态(文本 / 图像 / 音频 / 视频)
  2. 能力侧重:LLM 是语言能力核心,VLM 是视觉与语言的桥梁,MLLM 是更全面的通用智能形态
  3. 技术演进:LLM → VLM → MLLM 是大模型从单一文本到多模态融合的典型发展路径

💡 补充说明

  • 部分模型(如 GPT-4o、Gemini 1.5)同时属于 LLM 和 MLLM,因为它们在保留强文本能力的基础上,扩展了多模态能力。
  • VLM 可视为 MLLM 的子集,是多模态能力中最成熟的图文交互形态。

1.1.2 模型选型【modelscope.cn/my/overview】

应用场景 推荐模型类型 优先选择的代表模型 选型理由 纯文本对话 / 写作 / 代码 LLM GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek 文本理解与生成能力最强,响应速度快,成本更低 图文问答 / 图像理解 / OCR VLM / MLLM LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V 专注图文交互,图像解析精度高,适合轻量化视觉任务 视频理解 / 语音交互 MLLM GPT-4o、Gemini 系列、Qwen-VL 原生支持视频帧分析、语音转文本及多模态推理 多模态内容创作(图文 / 音视频) MLLM Emu3.5、GPT-4o、Gemini 系列 支持文本生成图像 / 视频、图像生成文本等跨模态创作 本地部署 / 低资源环境 轻量 LLM/VLM Llama 3-8B、Qwen-7B、LLaVA-7B 参数量小,可在消费级 GPU/CPU 上运行,隐私性好 企业级 API 调用 商用 MLLM GPT-4o、文心一言 4.0、通义千问 4.0 稳定性高、接口完善、有企业级服务支持

1.1.3🚀 大语言模型(LLM)完整训练流程

大模型的训练通常分为 预训练 → 监督微调 → 对齐学习(强化学习等) 三个核心阶段,部分模型还会加入后续优化步骤:


  1. 预训练(Pre-training)
  • 目标:让模型学习通用语言知识和基础规律
  • 数据:海量无标注文本数据(书籍、网页、代码等)
  • 方法:自监督学习(Next Token Prediction,预测下一个词)
  • 结果:得到基座模型(Base Model),能续写文本,但不会 “听懂人话”

  1. 监督微调(Supervised Fine-Tuning, SFT)
  • 目标:让模型学会遵循人类指令,完成具体任务
  • 数据:高质量指令 – 回答对(人工标注或精选对话)
  • 方法:有监督学习,用指令数据微调基座模型
  • 结果:得到SFT 模型,能理解指令、生成符合要求的回答

  1. 对齐学习(Alignment Learning)

这一步是让模型更 “听话、安全、有用”,主流有两种方式:

  • 强化学习(RLHF / PPO)
    • 先训练奖励模型(RM):对模型输出打分,判断 “是否更像人类偏好”
    • 再用 PPO 算法:让 SFT 模型向高分方向优化,生成更符合人类价值观的回答
  • 直接偏好优化(DPO / KTO)
    • 更高效的替代方案:直接用 “偏好数据”(好回答 vs 坏回答)微调,跳过奖励模型
  • 结果:得到对齐模型(Chat Model),也就是我们日常使用的对话大模型

  1. 后续优化(可选)
  • 持续预训练:补充新领域数据,提升垂直领域能力
  • 蒸馏(Distillation):把大模型压缩成小模型,方便部署
  • 工具调用微调:让模型学会调用计算器、搜索引擎等外部工具
  • 多模态扩展:加入图像、音频、视频模态训练,成为多模态大模型

📝 流程总结

预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型

阶段 常用名字 做什么(一句话) 输入数据 输出模型 ① 预训练Pre-training 学语言、知识、规律,打下基础 海量无标注文本 基座模型 Base LLM ② 监督微调SFT 学会听懂指令、正常对话 指令 – 回答对(问答数据) SFT 模型 ③ 奖励模型训练Reward Modeling 教模型 “什么回答更好” 好坏对比回答 奖励模型 RM ④ 强化学习RLHF / PPO 让模型越说越像人、更安全 奖励模型打分 对齐后的对话模型 ⑤ DPO/you 好直接对齐(可选) 替代强化学习,更简单 偏好对比数据 最终对话模型

📝 流程总结

预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型

1.1.4 技术方向

  • 生成式AI与分析式AI

生成式AI以LLM、多模态模型为核心,聚焦文本、图像、音视频等内容的生成与创作,具备创造性能力;分析式AI侧重数据的识别、分类、预测与判断,是传统AI的核心形态,二者协同支撑各类AI应用落地。

  • Function call(函数调用)

核心是让大模型根据用户需求及任务场景,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际操作,打通模型能力与现实任务的衔接。

  • MCP模型上下文协议

作为模型间、模型与系统间的标准化通信协议,主要用于统一传递上下文信息、任务状态、历史交互记录等,提升多模型协作的一致性与效率,降低系统集成成本。

  • RAG检索增强生成

融合检索与生成两大核心能力,先通过检索模块从外部知识库、数据库中获取精准相关信息,再输入大模型进行整合生成,有效解决模型“幻觉”问题,提升回答的准确性与可溯源性。

  • Embedding通用技术

将文本、图像、音频等非结构化数据,转化为计算机可识别、可计算的向量表示,是语义检索、相似度匹配、数据分类、聚类等各类AI任务的基础支撑技术。

  • Prompt工程(提示词工程)

通过科学设计提示指令,包括角色设定、任务描述、格式约束、逻辑引导等,充分激发大模型的能力,优化输出质量与准确性,降低模型使用门槛。

  • Agent开发(智能体开发)

依托大模型的推理能力,赋予其自主规划、记忆管理、工具调用、多步决策的能力,开发可独立完成复杂、多步骤任务的AI智能体,拓展AI的应用边界。

1.1.5 名词解释

  • token(令牌)

大模型处理文本的最小单位,可理解为“词元”,单个汉字、英文单词、标点符号或片段都可能作为一个token,模型的输入输出长度、计费均以token为单位。

  • temperature(温度)

控制大模型输出随机性的参数,取值范围0~1。值越高,输出越随机、有创意;值越低,输出越确定、严谨,趋近于固定答案。

  • Transformer

大模型的核心基础架构,基于自注意力机制设计,能够高效捕捉文本、图像等数据的上下文关联,是当前LLM、多模态模型的核心技术支撑。

  • topP(核采样)

与temperature配合使用的输出控制参数,又称“累积概率采样”,通过设定一个概率阈值(0~1),仅从概率累积和达到该阈值的候选token中采样,平衡输出的多样性与合理性。

  • 联网搜索

大模型获取外部实时信息的能力,通过调用搜索引擎接口,检索最新、未包含在模型训练数据中的内容,解决模型“知识滞后”问题,提升回答的时效性。

  • 模型局限

大模型自身存在的固有不足,主要包括知识滞后(受训练数据截止时间限制)、生成幻觉(输出虚假但看似合理的内容)、逻辑谬误、对复杂任务的推理能力有限,以及存在偏见(受训练数据中潜在的偏见信息影响,可能输出带有性别、种族、职业等偏见的内容)等。

  • RAG(检索增强生成)

全称Retrieval-Augmented Generation,融合检索与生成的技术,先从外部知识库检索与问题相关的精准信息,再输入大模型整合生成回答,核心是解决模型幻觉、提升回答准确性。

  • prompt(提示词)

用户输入给大模型的指令、问题或引导语,是大模型理解任务需求的核心依据,优质的prompt可有效激发模型能力,优化输出效果(对应前文Prompt工程)。

  • functioncall(函数调用)

大模型根据用户需求,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际任务,打通模型能力与现实场景的衔接(对应前文Function call技术方向)。

  • 上下文(不同模型上下文大小限制不同,在100~200k左右)

用户与大模型的历史交互记录、当前输入的指令及相关信息,大模型通过读取上下文,理解对话逻辑、保持回答的连贯性与一致性。

  • Agent(智能体)

基于大模型开发的具备自主能力的AI实体,能够自主理解任务、规划步骤、管理记忆、调用工具,实现多步推理,可独立完成复杂、连贯的任务(对应前文Agent开发技术方向)。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/278512.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月14日 上午7:22
下一篇 2026年3月14日 上午7:23


相关推荐

关注全栈程序员社区公众号