智谱开源GLM-OCR：0.9B小模型在复杂文档处理登顶SOTA

智谱AI正式开源发布 GLM-OCR，这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中，它以 94.6 的高分超越多款同类模型，展现了在手写公式、多语混排及印章识别等 复杂文档 场景下的统治级能力，为行业提供了高效的专业级OCR解决方案。

GLM-OCR 采用独特的 “编码器 – 解码器” 架构，通过极致的参数效率实现了性能与成本的双重突破。

智谱 AI 正式开源发布 GLM-OCR，这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中，它以 94.6 的高分超越多款同类模型，展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力，为行业提供了高效的专业级 OCR 解决方案。

轻量部署：总参数量仅 0.9B，完美支持 vLLM、SGLang 和 Ollama 等主流推理框架，大幅降低了部署门槛。

SOTA性能：在 OmniDocBench V1.5 综合评测中斩获 94.6 分，在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异，性能接近 Gemini-3-Pro（据公开报道）。

极致速度：在同等硬件条件下（单副本单并发），PDF 文档处理吞吐量达 1.86 页/秒，图片处理达 0.67 张/秒。

颠覆性成本：API 调用输入输出同价，仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF，成本仅为传统 OCR 方案的 1/10。

针对传统 OCR 难以处理的 “硬骨头”，GLM-OCR 进行了深度优化，在多种极端场景下实现了突破。

手写智谱 AI GLM 教程体与公式：模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度，有效解决了科研与教育场景的痛点。

复杂表格解析：面对跨页、跨单元格及多层表头的复杂表格，GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码，极大提升了数据录入与转换效率。

票据与卡证提取：支持从各类非结构化票据中智能提取关键字段，并直接输出结构化的 JSON 数据，适配银行、保险及物流系统的自动化需求。

RAG支撑：其高精度的识别能力与规整的 Markdown/JSON 输出格式，为检索增强生成（RAG）系统提供了高质量的数据底座。

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面，智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件，GLM-OCR 将文档处理成本降低至 “白菜价”（1 元可处理海量文档）。未来，团队还将持续迭代，计划推出更多尺寸版本，并将能力拓展至更多语种及视频 OCR 领域。

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性，叠加极低的部署成本与开放 API，正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

智谱AI工具体验：智谱清言：ChatGLM_AI大模型_AITOP100,ai工具

发布者：Ai探索者，转载请注明出处：https://javaforall.net/263878.html原文链接：https://javaforall.net

智谱开源GLM-OCR：0.9B小模型在复杂文档处理登顶SOTA

关于作者

Ai探索者网站注册用户

智谱开源GLM-OCR：0.9B小模型在复杂文档处理登顶SOTA

关于作者

Ai探索者网站注册用户

相关推荐

手机端智能助理框架-Open-AutoGLM保姆级部署教程

智谱新发的 GLM-4.5 性能炸裂却全部开源，图啥？

刚刚，智谱港交所敲钟！市值528亿港元

智谱清言 GLM-4-Plus API VS 字节豆包 1.5 Pro 256k API ：长文本处理与企业级场景的技术博弈

国内Claude Code+智谱

OpenClaw意外走红，智谱、MiniMax、Kimi终于“得救”了