[人工智能-大模型-27]：大模型应用层技术栈 - 大语言模型中的token是什么？ - 教程

在大语言模型（Large Language Models, LLMs）中，Token 是模型处理文本的基本单位。理解 Token 的概念对于使用和优化大模型非常重要，尤其是在调用 API 时涉及成本计算、输入长度限制、性能优化 等方面。

Token 可以简单理解为：文本被切分后的“词块”或“语义单元”。

大模型不能直接处理原始字符串（如 “你好，世界！”），而是需要先将文本通过 分词器（Tokenizer） 转换成数字序列 —— 每个数字对应一个 token。

✅ 举个例子：

句子：

经过分词后可能变成以下 tokens：

共 6 个 tokens

注意：空格也可能被视为一部分（比如包含空格）。

1. 英文

通常以 单词 + 标点符号 为单位。
常见子词分割算法：Byte Pair Encoding (BPE)，由 OpenAI 使用。

示例：

小词（如 “the”, “is”）通常是独立 token；复杂词可能被拆开。

2. 中文

中文没有天然空格，所以每个 汉字或短语 可能成为一个 token。
Qwen、ERNIE、ChatGLM 等中文模型会对中文进行更细粒度的切分。

示例：

不同模型的分词策略不同，有的倾向于保留完整词语。

1. 决定输入/输出长度

每种模型都有最大上下文长度限制，例如：

模型最大上下文长度（token 数） GPT-3.5-turbo 16,384 tokens GPT-4 32,768 tokens（部分版本支持 128K） Qwen-turbo 32,768 tokens Qwen-max 8,192 ~ 32,768

如果你输入的内容超过这个限制，API 会报错或自动截断。

2. 影响计费成本

大多数 LLM 平台按 输入 + 输出的 token 数量收费。

示例（OpenAI）：

示例（阿里云 DashScope – Qwen）：

模型输入价格（元 / 千 token）输出价格（元 / 千 token） qwen-turbo 0.008 0.012 qwen-plus 0.02 0.02

所以控制 token 使用量 = 控制成本！

3. 影响响应速度

token 越多，模型需要处理的信息越多 → 延迟越高
特别是长上下文对话，可能导致响应变慢

方法 1：使用官方工具

▶ OpenAI 提供 tokenizer 工具（tiktoken）

import tiktoken

enc = tiktoken.encoding_for_model(“gpt-3.5-turbo”)

text = “你好，世界！Hello, world!”

tokens = enc.encode(text)

print(f”Token 数量: {len(tokens)}”) # 输出类似：10

print(f”Tokens 列表: {tokens}”)

▶ 阿里云 Qwen（DashScope）也提供在线计算器：

https://help.aliyun.com/zh/dashscope/developer-reference/quick-start

或者使用库估算 Qwen 的 token 数：

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(“Qwen/Qwen-7B-Chat”, trust_remote_code=True)

text = “你好，通义千问！”

tokens = tokenizer.encode(text)

print(len(tokens)) # 输出 token 数量

问题回答 ❓ 1 个汉字 = 几个 token？大约 1~2 个 token（中文平均 1.5 左右） ❓ 英文单词 always 是 1 个 token 吗？不一定，生僻词或复合词会被拆分（如 “ChatGPT” → “Chat” + “G” + “PT”） ❓ 标点符号算 token 吗？是的，每个标点都可能是一个 token ❓ 空格算不算？在某些 tokenizer 中，“ hello” 中的空格属于 token 的一部分 ❓ 如何减少 token 消耗？精简提示词、避免重复内容、使用摘要代替全文

千问 Qwen 教程
❓ 一句话中，相同的单词如何计算token？在一句话中，相同的单词会被独立地转换为 Token，即使重复出现，每个实例都会单独计入总 Token 数。

内容类型字数 vs Token 数近似关系中文文本1 token ≈ 1.5～2 个汉字英文文本1 token ≈ 4 个英文字符或 0.75 个单词混合内容视具体情况而定

举例：

一段 1000 字的中文文章 ≈ 600～700 tokens
一篇英文技术文档（500 words）≈ 650 tokens

关键点说明 Token 是什么？文本被模型切分后的基本单位为什么重要？决定长度限制、费用、速度中文怎么算？一般 1~2 token/字英文怎么算？常见词 1 个 token，复杂词会拆分怎么查看？用（OpenAI）、（Qwen）等工具如何节省？缩短输入、删除冗余信息、合理设计 prompt

建议实践：下次调用 OpenAI 或 Qwen API 前，先用 tokenizer 预估一下 token 数量，避免超限或浪费预算！

如果你希望我帮你写一个 自动计算 token 并预估费用的小工具脚本，欢迎告诉我

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/260204.html原文链接：https://javaforall.net

[人工智能-大模型-27]：大模型应用层技术栈 – 大语言模型中的token是什么？ – 教程

✅ 举个例子：

1. 英文

2. 中文

1. 决定输入/输出长度

2. 影响计费成本

示例（OpenAI）：

示例（阿里云 DashScope – Qwen）：

3. 影响响应速度

方法 1：使用官方工具

▶ OpenAI 提供 tokenizer 工具（tiktoken）

▶ 阿里云 Qwen（DashScope）也提供在线计算器：

关于作者

全栈程序员-站长

[人工智能-大模型-27]：大模型应用层技术栈 – 大语言模型中的token是什么？ – 教程

✅ 举个例子：

1. 英文

2. 中文

1. 决定输入/输出长度

2. 影响计费成本

示例（OpenAI）：

示例（阿里云 DashScope – Qwen）：

3. 影响响应速度

方法 1：使用官方工具

▶ OpenAI 提供 tokenizer 工具（tiktoken）

▶ 阿里云 Qwen（DashScope）也提供在线计算器：

关于作者

全栈程序员-站长

相关推荐

【AI大模型前沿】阿里通义千问 Qwen3-Coder：开启智能代码生成与代理式编程新时代

Qwen3-TTS全家桶正式全面开源，一站式解锁多语言语音生成全能力

深度解析：Qwen3.5-9B如何用1／13的参数量在5大基准中超越GPT-oss-120B？混合架构、基准测试、开源许可全分析

LM Studio本地大模型部署保姆级教程

阿里旗下千问眼镜上市，互联网巨头全面卡位AI产业细分领域

Qwen2.5会自动缩放图像吗？