01-LLM/大模型:AI界的"学霸"是怎么炼成的

01-LLM/大模型:AI界的"学霸"是怎么炼成的

这篇文章带你理解AI圈最火的词——LLM,看懂大模型到底”大”在哪。

打开科技新闻,你一定见过这些词:

  • “OpenAI发布最新大模型…”
  • “国产大模型百花齐放…”
  • “XX公司宣布千亿参数大模型…”

大佬们聊天也离不开:

“你们用的什么LLM?” “我们部署了一个7B的模型…” “大模型的能力涌现了…”

如果你满头问号:LLM是啥?大模型有多大?7B是几个意思?

别急,今天就把这些黑话翻译成人话。


场景模拟


人话翻译表

黑话 人话翻译 一句话理解 LLM 大语言模型 超级能聊天的AI大脑 大模型 参数很多的AI 读过超多书的”学霸” 7B/70B 70亿/700亿参数 模型的”脑细胞”数量 Base Model 基础模型 没经过专业训练的”通识生” 涌现 突然变聪明 量变引起质变 上下文窗口 记忆容量 AI能”记住”多少字

2.1 一句话定义

LLM(Large Language Model)= 大语言模型

人话版:一个读过海量文字、超级会聊天、什么都能扯两句的AI”学霸”

2.2 为什么叫”大”模型?


2.3 参数是什么?为什么越多越好?

参数 = AI的”脑细胞”


生活类比

对比 参数少的模型 参数多的模型 就像 小学生 博士生 能力 只会做简单题 能解决复杂问题 知识 知道基础常识 博古通今 聊天 问一句答一句 能深度交流

3.1 7B、13B、70B…

你经常看到的这些数字,其实说的是参数量

标识 全称 参数量 类比 7B 7 Billion 70亿 ≈ 重点高中生的知识储备 13B 13 Billion 130亿 ≈ 大学生的知识储备 70B 70 Billion 700亿 ≈ 研究生的知识储备 175B 175 Billion 1750亿 ≈ 教授的知识储备

3.2 常见大模型对比

模型 参数量 所属公司 特点 GPT-3 175B OpenAI 开启大模型时代 GPT-4 ~1.8T OpenAI 多模态,超强推理 Claude 3 未公开 Anthropic 安全性好,长上下文 LLaMA 2 7B-70B Meta 开源,可商用 Qwen 7B-72B 阿里 中文能力强 GLM-4 9B-130B 智谱 国产之光

4.1 涌现效应

大佬们常说:“小模型能力不行,得上70B才能涌现”

涌现 = 参数量达到某个临界点后,模型突然”开窍”,具备了之前没有的能力。


4.2 生活类比

就像学骑自行车

  • 看了很多教程(小参数)→ 还是不会骑
  • 练了很多次(中参数)→ 摇摇晃晃
  • 某一天突然(临界点)→ 我悟了!(涌现)

涌现后的能力

  • 逻辑推理
  • 代码编程
  • 数学计算
  • 多语言切换
  • 遵循复杂指令

5.1 两种模型类型

类型 英文名 中文名 状态 Base Model Foundation Model 基础模型 “通识生” Chat Model Instruct Model 指令模型 “专业人士”

5.2 区别在哪?


训练过程



6.1 直接使用

方式 工具 适合人群 网页版 ChatGPT、Claude、文心一言 所有人 APP 豆包、Kimi、通义千问 所有人 API OpenAI API、各种API服务 开发者

6.2 本地部署(进阶)

如果你有块好显卡,可以自己在电脑上跑大模型:



7.1 大模型也会犯错

问题 说明 幻觉 一本正经胡说八道 知识截止 不知道最新发生的事 数学弱 复杂计算容易出错 没有真意识 只是在预测下一个字

7.2 别被忽悠了

⚠️ 注意:很多号称”超越GPT-4″的模型,实际效果可能差很远。

  • 看参数量,更看训练数据质量
  • 看评测分数,更要实测体验
  • 适合自己的才是最好的

黑话 人话 记忆口诀 LLM 大语言模型 读很多书的AI学霸 参数 脑细胞数量 越多越聪明 7B/70B 70亿/700亿参数 数字越大越厉害 涌现 突然开窍 量变引起质变 Base Model 基础模型 还没培训的通识生 Chat 智谱 AI GLM 教程 Model 对话模型 培训好的专业生


  1. 思考题
    • 为什么参数越多,模型越聪明?有没有极限?
    • 小模型有什么优势?什么场景下够用?
  2. 动手练习
    • 打开 ChatGPT 或 Claude,感受一下大模型的能力
    • 试试让模型做不同难度的任务,观察效果差异
  3. 延伸探索
    • 了解你常用的AI助手背后是哪个大模型
    • 尝试用 Ollama 在本地跑一个7B模型

下一篇文章,我们来聊:Token/词元 – AI眼里的”字”跟你不一样

会解答这些问题:

  • 为什么AI说”4K context”却不能输入4000个汉字?
  • Token到底是什么?怎么数的?
  • 同样一句话,中文和英文的Token数量一样吗?

关注专栏,不错过后续更新!


作者:ECH00O00 本文首发于掘金专栏《AI黑话翻译官》 欢迎评论区交流讨论,点赞收藏就是最大的鼓励

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/271568.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午1:58
下一篇 2026年3月12日 下午1:58


相关推荐

关注全栈程序员社区公众号