THUDM&智谱介绍：模型、产品、API

智谱华章，简称智谱，Z.ai，zai-org，官网，GitHub主页，HuggingFace主页，ModelScope首页。

Chat聊天对话端有3个：

https://chat.z.ai：简称Z.ai，意图狠明显，对标马斯克的X.ai，面向海外用户，文档，API
https://chatglm.cn：面向国内用户，智谱清言
https://bigmodel.cn

三者提供的服务，其后台使用GLM系列模型。

即BigModel开放平台，首页，提供对话入口，

在这里插入图片描述
开发者文档，非常齐全。

清华大学和智谱AI合作的实验室。

论文，GitHub，3.3K Star，331 Fork，不过GitHub已不再更新。

GitHub，2.9K Star，203 Fork。

论文，GitHub，414 Star，29 Fork。第一个多维度全面评估中文大模型对齐水平的评测基准。

整体架构
在这里插入图片描述
数据集分为8个主要类别：基本能力、中文理解、综合问答、写作能力、逻辑推理、数学能力、角色扮演和专业知识。

JSONL格式数据：

question_id：数字，问题的唯一标识符；
category：字符串，问题所属的主要类别；
subcategory：字符串，用于进一步分类的次要类别；
question：字符串，实际用户查询；
reference：字符串，提供问题的参考或标准答案；
evidences：JSON Array，提供证据（包括来源链接URL和引用内容Quote），有助于CoT推理，可为空。

示例：

多维度评价方法

为了有效评估响应的质量，AlignBench目前采用来分析并随后对响应进行评分。在评估过程中，输入包括用户问题、模型回复和高质量的参考答案，输出是对模型回复的多维度的分析和最终评分，评分范围从1到10。为了确保可靠性和可解释性，实施以下方法：

单点打分：对于每个回答，评估方法将给出一个从1到10的最终评分。
CoT：由于评分任务涉及到复杂的推理过程，采用思维链方法来增强评价的可靠性和可解释性。具体来说，会引导评价模型在给出最终评分之前，从多个维度生成对模型回答的分析解释。
规则校准：对于每个问题，提供一个高质量的参考答案。为了指导评价模型将模型回答与参考答案进行比较，并生成更加可控的分数，提供详细的评分规则，阐述分数区间（目前将1-10五等分）与模型回答的质量之间的关系。规则包含在Prompt中。
多维度分析：由于不同任务具有不同的性质和特征，对所有任务应用相同的评估流程是不合理的。因此采用多维度评分方法来全面评估模型回答。根据不同问题类型设置不同的评估维度，并指导评价模型从指定的多个维度分析模型答案并提供单个维度的分数。这些维度及其定义记录在config中。

通用语言模型，General Language Model缩写，系列包括：

GLM-4
GLM-Z1
GLM-4.5
GLM-4.6

GLM-4

Plus：BigModel 开放平台的高智能模型，在语言理解、逻辑推理、指令遵循、长文本处理等方面性能表现优异。

Air-：基座，能快速执行复杂任务，在工具调用、联网搜索、代码等智能体任务上的能力得到大大加强

AirX：Air的高速版

FlashX-：Flash增强版

Flash-：超快推理速度、更强并发保障和极致性价比，在实时网页检索、长上下文处理、多语言支持等方面表现出色

系列包括：

GLM-4：
GLM-4-Air：采用更紧凑的设计，
GLM-4-AirX：GLM-4-Air的极速推理版本
GLM-4-FlashX
GLM-4-PLus：高智能旗舰模型
GLM-4-Long：超长输入模型
GLM-4-AirX-：升级版
GLM-4-FlashX-：升级版
GLM-4-32B-0414：25年4月更新
GLM-4-9B-0414：25年4月智谱 AI GLM 教程更新，沿用上述一系列技术，尽管规模更小，整体表现已处于同尺寸开源模型中的领先水平，特别适用于资源受限的场景。
GLM-4-32B：24年8月推出，在语义、数学、推理、代码和知识等多方面的数据集测评中，表现出较高性能。增加26种语言支持。作为基座版本，支持8K上下文长度；在基座基础上还推出支持1M上下文长度（约200万中文字符）的模型。
GLM-4-9B-Chat：人类偏好对齐的版本，能进行多轮对话，具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大128K上下文）等高级功能。

GLM-Z1

GLM-4的升级版。

系列模型：

Air：具备深度思考能力的推理模型，通过推理数据增强和对齐优化，数理推理能力显著增强，适合高频调用场景。高性价比版，价格仅为DeepSeek-R1的1/30，适合高频调用场景；
AirX：极速版，国内最快推理模型，推理速度高达200 tokens/s，8倍于常规速度；
FlashX：具有超快推理速度和更快并发保障，极致性价比，进一步降低推理模型使用门槛，GLM-Z1-Flash增强版；
Flash：推理模型。免费版，支持免费使用，进一步降低模型使用门槛。

GLM-Z1系列模型预计将于2025年11月15日下线，建议选择最新旗舰文本模型GLM-4.6，该模型同样支持思考模式。

GLM-4.5

GitHub，ModelScope，文档。

专为智能体设计的基础模型，统一推理、编码和智能体能力，以满足智能体应用的复杂需求。

Benchmark：

Chatbot Arena：综合能力
WebDev Arena：前端开发能力
MathArena：数学与逻辑能力
RAG：主要考查幻觉率
Terminal-Bench：代码能力
EQ-Bench：情感理解能力
Longform Creative Writing：长文写作能力

系列包括：

GLM-4.5：总参数量355B，激活参数32B，使用MoE架构；
GLM-4.5-Air：采用更紧凑的设计，总参数106B，激活参数12B，使用MoE架构；
GLM-4.5-X：GLM-4.5的极速推理版本；
GLM-4.5-AirX：GLM-4.5-Air的极速推理版本；
GLM-4.5-Flash：完全免费。

GLM-4.6

ModelScope，

相比GLM-4.5，GLM-4.6的关键改进：

上下文窗口更长：从128K扩展到200K，使模型能够处理更复杂的智能体任务；
代码性能更强：在代码基准测试中取得更高分数，并在实际应用中表现更佳，如Claude Code、Cline、Roo Code和Kilo Code，包括在生成视觉上更精美的前端页面方面的提升；
推理能力更先进：在推理性能上有明显提升，并在推理过程中支持工具调用，从而带来更强的整体能力；
智能体更强大：在工具使用和基于搜索的智能体方面表现更强，并能更高效地融入智能体框架；
写作更精细：更好地符合人类在风格和可读性上的偏好，并在角色扮演场景中表现得更加自然。

智谱清言，基于GLM模型开发的双语对话语言模型，支持多轮对话，具备内容创作、信息归纳总结等能力。

Chat对话网址，功能界面如下

聊天入口
在这里插入图片描述
右上角功能按钮：

许愿池
定时任务
下载App
个人中心

在这里插入图片描述
还提供智能体中心和知识库功能。

系列模型包括3个版本，GitHub用于提交反馈、Bug、使用文档等：

ChatGLM-6B：开源（GitHub，41.2K Star，5.2K Fork）
ChatGLM2-6B：开源（GitHub，15.7K Star，1.8K Fork）
ChatGLM3：开源（GitHub，13.7K Star，1.6K Fork）

ModelScope托管系列模型包括：

ChatGLM-6B：第一代
ChatGLM2-6B：第二代
ChatGLM3-6B：第三代

ChatGLM-6B是一款开源的中英双语对话语言模型，建立在GLM架构之上，拥有62亿参数。通过模型量化技术，用户能够在消费级显卡上实现本地部署（在INT4量化级别下，最少仅需6GB显存）。

采用与ChatGLM相似技术，并针对中文问答和对话场景进行优化，经过约1万亿个中英双语标识符的训练，并借助监督微调、反馈自举以及融合人类反馈的强化学习等技术。

视觉推理模型，系列包括：

GLM-4.5V：MOE架构，106B的总参数量和12B激活参数量；
GLM-4.1V-Thinking：10B，提供两个版本：FlashX和Flash；
GLM-4V-Plus-0111：具备视觉总结+视觉修改+推理能力+多轮对话+时间问答能力，支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像和视频理解任务；
GLM-4V-Flash：支持图片理解，完全免费。

文生图模型，系列包括：

CogView-4：支持任意长度中英双语输入，能够生成在给定范围内的任意分辨率图像。
CogView-3-Flash：完全免费

包括：

CogVideo系列：GitHub，文/图生视频模型，系列包括：
- CogVideoX-3：高质量视频生成
- CogVideoX-Flash：支持视频生成，完全免费
Vidu系列，包括：
- Vidu Q1：聚焦高质量视频创作
- Vidu 2：聚焦视频生成质量和速度平衡

认知视觉语言模型，开源（GitHub，6.7K Star，443 Fork）。GitHub收录模型文档和使用教程demo：基本、进阶、微调等。

优势

高效率：尽管模型庞大，但经过优化的推理速度使其能在资源有限的设备上运行；
跨域适应：模型适用于各种跨模态任务，无需对不同场景进行大幅度调整；
易用性：提供丰富的API和工具，简化与其他系统的集成过程。

官网，又一款智能编程助手，之前汇总过各种AI IDE，请参考

AI IDE/插件（一）
AI IDE/插件（二）
AI IDE/插件（三）

以IDE插件形式提供服务，支持：VS系列、JetBrains系列、HBuilderX。

系列模型包括，GitHub收集使用教程demo：

CodeGeeX：GitHub，8.7K Star，666 Fork
CodeGeeX2：GitHub，7.6K Star，536 Fork
CodeGeeX4：GitHub，2.3K Star，219 Fork

ModelScope托管：

CodeGeeX-Code-Generation-13B
CodeGeeX2-6B
CodeGeeX4-9B

CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。采用华为MindSpore框架实现，在鹏城实验室“鹏城云脑II”中的192个节点（共1536个国产昇腾910 AI处理器）上训练而成。截至2022年6月22日，历时两个月在20多种编程语言的代码语料库（>8500亿Token）上预训练得到。

特点：

高精度代码生成：支持生成Python、Java等多种主流语言，在HumanEval-X代码生成任务上取得47%~60%求解率，较其他开源基线模型有更佳的平均性能；
跨语言代码翻译：支持代码片段在不同编程语言间进行自动翻译转换，翻译结果正确率高，在HumanEval-X代码翻译任务上超越了其它基线模型；
自动编程插件：提供完全免费VS Code插件，可通过其强大的少样本生成能力，自定义代码生成风格和能力，更好辅助代码编写；
模型跨平台开源：所有代码和模型权重开源开放，用作研究用途。同时支持昇腾和英伟达平台，可在单张昇腾910或英伟达V100/A100上实现推理。

语音相关模型包括：