01-LLM／大模型：AI界的＂学霸＂是怎么炼成的

这篇文章带你理解AI圈最火的词——LLM，看懂大模型到底”大”在哪。

打开科技新闻，你一定见过这些词：

“OpenAI发布最新大模型…”
“国产大模型百花齐放…”
“XX公司宣布千亿参数大模型…”

大佬们聊天也离不开：

“你们用的什么LLM？” “我们部署了一个7B的模型…” “大模型的能力涌现了…”

如果你满头问号：LLM是啥？大模型有多大？7B是几个意思？

别急，今天就把这些黑话翻译成人话。

场景模拟

人话翻译表

黑话人话翻译一句话理解 LLM 大语言模型超级能聊天的AI大脑大模型参数很多的AI 读过超多书的”学霸” 7B/70B 70亿/700亿参数模型的”脑细胞”数量 Base Model 基础模型没经过专业训练的”通识生” 涌现突然变聪明量变引起质变上下文窗口记忆容量 AI能”记住”多少字

2.1 一句话定义

LLM（Large Language Model）= 大语言模型

人话版：一个读过海量文字、超级会聊天、什么都能扯两句的AI”学霸”。

2.2 为什么叫”大”模型？

2.3 参数是什么？为什么越多越好？

参数 = AI的”脑细胞”

生活类比：

对比参数少的模型参数多的模型就像小学生博士生能力只会做简单题能解决复杂问题知识知道基础常识博古通今聊天问一句答一句能深度交流

3.1 7B、13B、70B…

你经常看到的这些数字，其实说的是参数量：

标识全称参数量类比 7B 7 Billion 70亿 ≈ 重点高中生的知识储备 13B 13 Billion 130亿 ≈ 大学生的知识储备 70B 70 Billion 700亿 ≈ 研究生的知识储备 175B 175 Billion 1750亿 ≈ 教授的知识储备

3.2 常见大模型对比

模型参数量所属公司特点 GPT-3 175B OpenAI 开启大模型时代 GPT-4 ~1.8T OpenAI 多模态，超强推理 Claude 3 未公开 Anthropic 安全性好，长上下文 LLaMA 2 7B-70B Meta 开源，可商用 Qwen 7B-72B 阿里中文能力强 GLM-4 9B-130B 智谱国产之光

4.1 涌现效应

大佬们常说：“小模型能力不行，得上70B才能涌现”

涌现 = 参数量达到某个临界点后，模型突然”开窍”，具备了之前没有的能力。

4.2 生活类比

就像学骑自行车：

看了很多教程（小参数）→ 还是不会骑
练了很多次（中参数）→ 摇摇晃晃
某一天突然（临界点）→ 我悟了！（涌现）

涌现后的能力：

逻辑推理
代码编程
数学计算
多语言切换
遵循复杂指令

5.1 两种模型类型

类型英文名中文名状态 Base Model Foundation Model 基础模型 “通识生” Chat Model Instruct Model 指令模型 “专业人士”

5.2 区别在哪？

训练过程：

6.1 直接使用

方式工具适合人群网页版 ChatGPT、Claude、文心一言所有人 APP 豆包、Kimi、通义千问所有人 API OpenAI API、各种API服务开发者

6.2 本地部署（进阶）

如果你有块好显卡，可以自己在电脑上跑大模型：

7.1 大模型也会犯错

问题说明幻觉一本正经胡说八道知识截止不知道最新发生的事数学弱复杂计算容易出错没有真意识只是在预测下一个字

7.2 别被忽悠了

⚠️ 注意：很多号称”超越GPT-4″的模型，实际效果可能差很远。

看参数量，更看训练数据质量
看评测分数，更要实测体验
适合自己的才是最好的

黑话人话记忆口诀 LLM 大语言模型读很多书的AI学霸参数脑细胞数量越多越聪明 7B/70B 70亿/700亿参数数字越大越厉害涌现突然开窍量变引起质变 Base Model 基础模型还没培训的通识生 Chat 智谱 AI GLM 教程 Model 对话模型培训好的专业生

思考题：
- 为什么参数越多，模型越聪明？有没有极限？
- 小模型有什么优势？什么场景下够用？
动手练习：
- 打开 ChatGPT 或 Claude，感受一下大模型的能力
- 试试让模型做不同难度的任务，观察效果差异
延伸探索：
- 了解你常用的AI助手背后是哪个大模型
- 尝试用 Ollama 在本地跑一个7B模型

下一篇文章，我们来聊：Token/词元 – AI眼里的”字”跟你不一样

会解答这些问题：

为什么AI说”4K context”却不能输入4000个汉字？
Token到底是什么？怎么数的？
同样一句话，中文和英文的Token数量一样吗？

关注专栏，不错过后续更新！

作者：ECH00O00 本文首发于掘金专栏《AI黑话翻译官》欢迎评论区交流讨论，点赞收藏就是最大的鼓励

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/271568.html原文链接：https://javaforall.net

01-LLM／大模型：AI界的＂学霸＂是怎么炼成的

场景模拟

人话翻译表

2.1 一句话定义

2.2 为什么叫”大”模型？

2.3 参数是什么？为什么越多越好？

3.1 7B、13B、70B…

3.2 常见大模型对比

4.1 涌现效应

4.2 生活类比

5.1 两种模型类型

5.2 区别在哪？

6.1 直接使用

6.2 本地部署（进阶）

7.1 大模型也会犯错

7.2 别被忽悠了

关于作者

全栈程序员-站长

相关推荐

沉浸式翻译接入智谱 GLM 大模型：源自清华，更懂中文

智谱 GLM-4.6 旗舰 AI 模型发布：代码能力全面进阶，适配寒武纪、摩尔线程芯片

如何通过ZeroTier实现远程访问Mac？

GLM-4V-9B 视觉多模态模型本地部署教程【保姆级教程】

标签： glm-4.7

ai小小外卖教程