智谱AI正式开源 GLM-OCR,这是一款专为复杂文档理解设计的多模态OCR模型。凭借仅 0.9B 参数,GLM-OCR 在 OmniDocBench V1.5 上取得 94.62 分,位列第一名,并在公式识别、表格识别、信息提取等主流文档理解基准上达到业界领先水平。
GLM-OCR 用不到 1B 的参数量,做到了:
- 📊 OmniDocBench V1.5 第一名(94.62 分)
- ⚡ 推理速度快:PDF 文档 1.86 页/秒,图片 0.67 张/秒
- 🎯 实战优化:复杂表格、代码文档、印章等真实场景表现出色
- 🔓 完全开源:MIT 协议,支持 vLLM、SGLang、Ollama 部署
GLM-OCR 基于 GLM-V 编码器-解码器架构,包含三大核心组件:
1. Multi-Token Prediction (MTP) 损失
- 提升训练效率
- 增强识别准确性
2. 稳定的全任务强化学习
- 改善泛化能力
- 适应多样化文档布局
3. 两阶段处理流程
- 第一阶段:基于 PP-DocLayout-V3 的布局分析
- 第二阶段:并行识别处理
GLM-OCR 针对实际业务场景进行了专门优化:
在相同硬件和测试条件下(单副本、单并发),GLM-OCR 的吞吐量显著领先:
为什么这么快?
- 仅 0.9B 参数,推理开销小
- 优化的模型架构
- 支持高性能推理框架(vLLM、SGLang)
Ollama 小技巧:直接拖拽图片到终端即可识别!
从文档中提取原始内容:
提取结构化信息,必须使用严格的 JSON Schema:
示例:提取身份证信息
⚠️ 重要提示:信息提取时,输出必须严格遵循定义的 JSON Schema,以确保下游处理兼容性。
智谱AI 提供了易用的 SDK,让 GLM-OCR 的使用更加高效便捷。
访问 GitHub 仓库 获取详细文档和示例代码。
SDK 特性:
- 🚀 一行代码调用
- 📦 简单安装
- 🔧 平滑集成到现有生产流程
- 📚 完整的文档和示例
GLM-OCR 特别适合以下场景:
- GLM-OCR 模型:MIT License
- PP-DocLayoutV3(文档布局分析):Apache License 2.0
使用本项目时,请遵守两个协议的要求。
GLM-OCR 的开发受到以下优秀项目的启发:
- PP-DocLayout-V3 – 文档布局分析
- PaddleOCR – OCR 工具集
- MinerU – 文档解析
- 🌐 官方文档:docs.z.ai/guides/vlm/glm-ocr
- 💬 Discord:加入社区
- 📱 微信群:扫描二维码加入
- 🔧 GitHub:zai-org/GLM-OCR
- 🤗 Hugging Face:zai-org/GLM-OCR
GLM-OCR 用 0.9B 的参数量证明了”小模型也能有大能力”:
✅ 性能第一:OmniDocBench V1.5 排名第一(94.62) ✅ 速度快:1.86 页/秒,适合生产环境 ✅ 真实场景优化:复杂表格、代码、印章都能搞定 ✅ 部署灵活:vLLM、SGLang、Ollama 多种选择 ✅ 完全开源:MIT 协议,商用友好
对于需要高质量文档 OCR 能力的开发者和企业来说,GLM-OCR 是一个值得尝试的新选择——既有顶级性能,又有出色的推理效率,还完全开源免费。
相关资源:
- GLM-OCR GitHub
- GLM-OCR Hugging Face
- 官方 API 文档
- PP-DocLayout-V3
发布者:Ai探索者,转载请注明出处:https://javaforall.net/266077.html原文链接:https://javaforall.net
