大家好,我是小悟。
直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。
参数只有0.9B,却在权威的 OmniDocBench V1.5 榜单上拿了 94.6 分,在文本、公式、表格、信息抽取这几项里都冲到了 SOTA。

🤯 痛点:传统OCR的“老大难”
用过传统OCR工具的朋友,大概率都遇到过这些场景:
扫描版PDF:稍微模糊一点,或者表格跨页,出来的结果就是一团乱码,不是缺行少列,就是数字对不上。
手写体:学生的作业、医生的处方,识别率直接“跳水”,最后还是得靠人肉校对。
复杂表格:合并单元格、多层表头,识别出来就是一维文本,想还原成可用的表格,得手动调整半天。
公式截图:好不容易拍清楚,OCR 出来的却是一串看不懂的符号,想转成 LaTeX 更是奢望。
印章与文本重叠:盖章文件要提取信息,常常被印章盖住关键字段,传统方法很难把两者干净地分开。
多语言混排:中英文、数字、符号挤在一起,识别结果经常出现“串台”的尴尬情况。
很多方案为了效果,模型动辄几个B、几十B的参数,部署起来对显卡和内存要求很高,普通开发者和小团队只能望而却步。
成本也是个现实问题,按量计费、并发限制,处理海量历史文档时,账单会让人心头一紧。
所以,当我看到 GLM-OCR 的参数和定位时,心里想的是:这模型,能顶。
🧠 GLM-OCR:麻雀虽小,五脏俱全
GLM-OCR 是智谱基于 GLM-V 系列“视觉编码器 + 语言解码器”思路,专门为文档理解打造的一款多模态OCR模型。它的核心特点可以概括为:小、准、全、快、便宜。
小:模型总参数约 0.9B(其中视觉编码器约 400M,语言解码器约 0.5B),体积和显存占用都控制得很好,普通显卡甚至 CPU 环境都有机会跑起来。
准:在 OmniDocBench V1.5 综合榜单上拿到 94.6 分,在文本、公式、表格、信息抽取等多个子任务中都达到了 SOTA 或接近 SOTA 的水平。
全:它不只是“识字”,而是能理解整个文档的版式。官方重点优化了六大真实业务场景:代码文档、复智谱 AI GLM 教程杂表格、手写体、多语言、印章识别、票据提取。
快:官方测试数据显示,单副本单并发下,处理 PDF 的吞吐量约 1.86 页/秒,处理图片约 0.67 张/秒,速度在同类小参数模型里很有竞争力。

便宜:官方 API 定价为 0.2 元/百万 Tokens,1 块钱大概能处理 2000 张 A4 扫描图或 200 份 10 页的 PDF,成本约为传统 OCR 方案的十分之一。
从技术架构上看,GLM-OCR 采用了“视觉编码器 → 跨模态连接层 → 语言解码器”的三级结构。
并引入了多 Tokens 预测损失(MTP)和全任务强化学习等训练策略,让模型在有限参数下也能学到更强的上下文理解和泛化能力。
🚀 核心功能:不止于“识字”
GLM-OCR 的功能覆盖了从简单识别到复杂理解的多个层次,实用性很强。
通用文本识别
支持照片、截图、扫描件、PDF 等多种输入,能较好地应对手写体、印章、代码截图等特殊内容。
对于学生、科研人员、程序员等需要数字化笔记或文档的人来说,非常友好。

复杂表格解析
能理解合并单元格、多层表头、斜线表头等复杂结构,并直接输出 HTML 表格代码,无需二次制表。
对于财务、运营、数据分析等经常处理报表的岗位,这能节省大量时间。

手写公式识别
能将手写或打印的公式截图准确地转换成 LaTeX 格式,保留上下标、分式、根号等复杂结构。
对于理工科师生和科研人员,这简直是“解放生产力”的神器。

信息结构化提取
支持通过 JSON Schema 模板,从发票、证件、报关单等文档中自动提取关键字段并输出结构化 JSON 数据。
这对于需要对接业务系统、构建自动化流程的开发者来说,价值巨大。

批量处理与 RAG 支持
支持大批量文档解析,其高精度和规整的输出格式,非常适合作为检索增强生成(RAG)系统的前置文档解析模块,为上层大模型提供高质量的“燃料”。

💻 使用体验:本地与云端部署
GLM-OCR 提供了多种灵活的接入方式,无论是开发者还是普通用户,都能找到适合自己的玩法。
本地/私有化部署:支持 vLLM、SGLang、Ollama多种主流框架。对于注重数据隐私或有本地化部署需求的用户,非常友好。
云端 API 调用:智谱开放平台提供了标准的 API 接口,按量计费,接入成本和使用门槛都很低。
本地安装
开源社区
👍 为什么推荐它?
结合我自己的感受,推荐 GLM-OCR 的理由主要有以下几点:
开源免费,自主可控:基于 Apache-2.0 license 协议开源,个人和企业都可以免费使用、二次开发和商用。
性能强劲,性价比高:0.9B 的小参数,却在多个权威榜单上取得了顶尖成绩,真正做到了“小而美”。
同时,无论是本地部署的成本还是云端 API 的定价,都极具竞争力。
场景覆盖广,实用性强:从日常办公到科研学习,从简单识别到复杂结构化提取,GLM-OCR 都能提供出色的支持,具有很强的通用性。
工程友好,易于集成:提供了完整的 SDK 和推理工具链,支持多种主流部署方式,无论是开发者还是普通用户,都能快速上手。
国产模型,本土化优势:对于中文用户来说,GLM-OCR 在处理中文文档、票据等本土化场景时,具有天然的优势。
🎯 最后
GLM-OCR 的出现,为 OCR 领域带来了一股新的活力。
“小身材”撬动了“高精度”,用“开源”降低了技术门槛,让更多人能够享受到 AI 带来的便利。

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/269308.html原文链接:https://javaforall.net
