GLM-OCR：0.9B参数登顶OmniDocBench，智谱AI开源最强文档OCR模型

智谱AI正式开源 GLM-OCR，这是一款专为复杂文档理解设计的多模态OCR模型。凭借仅 0.9B 参数，GLM-OCR 在 OmniDocBench V1.5 上取得 94.62 分，位列第一名，并在公式识别、表格识别、信息提取等主流文档理解基准上达到业界领先水平。

GLM-OCR 用不到 1B 的参数量，做到了：

📊 OmniDocBench V1.5 第一名（94.62 分）
⚡ 推理速度快：PDF 文档 1.86 页/秒，图片 0.67 张/秒
🎯 实战优化：复杂表格、代码文档、印章等真实场景表现出色
🔓 完全开源：MIT 协议，支持 vLLM、SGLang、Ollama 部署

GLM-OCR 基于 GLM-V 编码器-解码器架构，包含三大核心组件：

组件技术方案作用 视觉编码器 CogViT（大规模图文预训练）提取图像特征 跨模态连接器 轻量级设计 + 高效token降采样视觉-语言对齐 语言解码器 GLM-0.5B 生成文本输出

1. Multi-Token Prediction (MTP) 损失

提升训练效率
增强识别准确性

2. 稳定的全任务强化学习

改善泛化能力
适应多样化文档布局

3. 两阶段处理流程

第一阶段：基于 PP-DocLayout-V3 的布局分析
第二阶段：并行识别处理

基准测试 GLM-OCR 说明 OmniDocBench V1.5 94.62 🏆 综合文档理解，排名第一 公式识别 SOTA 数学公式、LaTeX 识别 表格识别 SOTA 复杂表格结构提取 信息提取 SOTA 结构化数据抽取

GLM-OCR 针对实际业务场景进行了专门优化：

场景类型表现优势 复杂表格 优秀跨页表格、嵌套表格 代码文档 优秀代码块、语法高亮 印章识别 鲁棒圆形、椭圆、不规则印章 混合布局 鲁棒图文混排、多栏布局

在相同硬件和测试条件下（单副本、单并发），GLM-OCR 的吞吐量显著领先：

输入类型 GLM-OCR 速度对比优势 PDF 文档 1.86 页/秒明显快于同类模型图片 0.67 张/秒高效处理

为什么这么快？

仅 0.9B 参数，推理开销小
优化的模型架构
支持高性能推理框架（vLLM、SGLang）

Ollama 小技巧：直接拖拽图片到终端即可识别！

从文档中提取原始内容：

任务 Prompt 用途 文本识别 提取纯文本 公式识别 提取数学公式 表格识别 提取表格结构

提取结构化信息，必须使用严格的 JSON Schema：

示例：提取身份证信息

⚠️ 重要提示：信息提取时，输出必须严格遵循定义的 JSON Schema，以确保下游处理兼容性。

智谱AI 提供了易用的 SDK，让 GLM-OCR 的使用更加高效便捷。

访问 GitHub 仓库获取详细文档和示例代码。

SDK 特性：

🚀 一行代码调用
📦 简单安装
🔧 平滑集成到现有生产流程
📚 完整的文档和示例

特性 GLM-OCR 传统 OCR 其他多模态 OCR 参数量 0.9B – 通常 >7B 推理速度 1.86 页/秒较慢较慢 复杂文档 ✅ 优秀 ❌ 较弱 ✅ 良好 部署成本 💰 低 💰 低 💰💰 高开源 ✅ MIT ❌ 多为闭源 ⚠️ 部分开源 易用性 ✅ 多种部署方式 ⚠️ 一般 ⚠️ 一般

GLM-OCR 特别适合以下场景：

场景说明优势 文档数字化 扫描件、PDF 智谱 AI GLM 教程转文本高精度、快速 票据识别 发票、收据、合同结构化提取 学术文献 论文、教材、公式公式识别强 表格提取 财务报表、数据表复杂表格处理 边缘部署 移动端、嵌入式设备参数量小 高并发服务 API 服务、批量处理推理速度快

GLM-OCR 模型：MIT License
PP-DocLayoutV3（文档布局分析）：Apache License 2.0

使用本项目时，请遵守两个协议的要求。

GLM-OCR 的开发受到以下优秀项目的启发：

PP-DocLayout-V3 – 文档布局分析
PaddleOCR – OCR 工具集
MinerU – 文档解析

🌐 官方文档：docs.z.ai/guides/vlm/glm-ocr
💬 Discord：加入社区
📱 微信群：扫描二维码加入
🔧 GitHub：zai-org/GLM-OCR
🤗 Hugging Face：zai-org/GLM-OCR

GLM-OCR 用 0.9B 的参数量证明了”小模型也能有大能力”：

✅ 性能第一：OmniDocBench V1.5 排名第一（94.62） ✅ 速度快：1.86 页/秒，适合生产环境 ✅ 真实场景优化：复杂表格、代码、印章都能搞定 ✅ 部署灵活：vLLM、SGLang、Ollama 多种选择 ✅ 完全开源：MIT 协议，商用友好

对于需要高质量文档 OCR 能力的开发者和企业来说，GLM-OCR 是一个值得尝试的新选择——既有顶级性能，又有出色的推理效率，还完全开源免费。

相关资源：

GLM-OCR GitHub
GLM-OCR Hugging Face
官方 API 文档
PP-DocLayout-V3

发布者：Ai探索者，转载请注明出处：https://javaforall.net/266077.html原文链接：https://javaforall.net

GLM-OCR：0.9B参数登顶OmniDocBench，智谱AI开源最强文档OCR模型

关于作者

Ai探索者网站注册用户

GLM-OCR：0.9B参数登顶OmniDocBench，智谱AI开源最强文档OCR模型

关于作者

Ai探索者网站注册用户

相关推荐

【详细教程】使用 NVM 安装 Node.js 并配置 Claude Code 对接智谱清言 API

智谱开源GLM系列模型，32B参数小身材大能量

智谱、华为联手！国产AI登顶全球

智谱发布Claude Code超值月度订阅计划 月费仅需20元起

一套教程让你不再畏惧使用AICoding

智谱启动IPO流程，并开源32B／9B系列GLM模型

智谱发布Claude Code超值月度订阅计划月费仅需20元起