智谱AI开源高性能轻量OCR模型GLM-OCR，沐曦曦云GPU完成Day 0适配

据沐曦股份MetaX消息，智谱AI今日正式发布并开源了轻量级专业OCR模型GLM-OCR，该模型以“小尺寸、高精度”为特点，在多项权威评测中取得领先性能。同时，沐曦股份的曦云C500/C550 GPU凭借其高生态兼容性，已高效完成与GLM-OCR的Day 0适配，为主流大模型提供“发布即能用”的国产算力支持。

GLM-OCR的核心亮点在于其卓越的性能、广泛的场景适应能力、高效的推理效率以及开源易用的特性。具体表现如下：

性能SOTA：该模型在权威文档解析榜单OmniDocBench V1.5上以94.6分登顶，并在公式识别、表格识别、信息抽取等多个主流基准测试中均取得最佳（SOTA）表现，性能接近Gemini-3-Pro。

场景优化：模型专攻真实业务痛点，在手写体、复杂表格、代码文档及印章等高难度识别场景中表现稳健。

推理高效：GLM-OCR参数量仅为0.9B，支持vLLM和SGLang部署，能显著降低推理延迟与算力开销，适合高并发与边缘部署。实测中，其处理PDF文档的吞吐量达1.86页/秒，处理图片达0.67张/秒，速度优于同类模型。

开源易用：智谱同步开源了完整的SDK与推理工具链，支持一行命令快速调用，便于开发者轻松接入现有业务系统。其API调用成本约为0.2元/百万Tokens，成本约为传统OCR方案的十分之一。

在实际应用方面，GLM-OCR展现出强大的解析能力：

通用文本识别：支持照片、截图、扫描件、文档等多种输入，能够准确识别手写体、印章、代码等特殊文字。

复杂表格解析：针对合并单元格、多层表头等复杂结构，模型能精准理解并直接输出HTML代码，无需二次制表，大幅提升效率。

信息结构化提取：可从各类卡证、票据、表格中智能提取关键字段，并输出标准JSON格式，便于对接银行、保险、物流等行业系统。

批量处理与RAG支持：支持大批量文档的识别与解析，其高精度识别和规整的输出格式，可为检索增强生成（RAG）提供坚实基础。

此次曦云C500/C550 GPU基于Transformer和vLLM框架对GLM-OCR进行适配，在保持优异精度的同时，实现了高性能、低延迟的推理。这延续了沐曦与智谱AI在模型适配上的高效合作，充分体现了沐曦MXMACA软件栈与曦云C系列的高兼容性与快速适配能力。

GLM-OCR模型及相关资源已在Github、Hugging Face及智谱开放平台等多个渠道开源，并提供在线体验。

原文：曦云C智谱 AI GLM 教程500/C550 Day 0 适配智谱GLM-OCR（来源：沐曦股份MetaX）

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/268172.html原文链接：https://javaforall.net

智谱AI开源高性能轻量OCR模型GLM-OCR，沐曦曦云GPU完成Day 0适配

关于作者

全栈程序员-站长

相关推荐

智谱AI、清华开源新视觉大模型：刷新41项纪录，同级别最强

智谱ZCode上手：把Claude和Gemini装进桌面，编程还能这么玩？

智谱官宣开源新模型Z1，并行科技全面接入

老金的公众号自动写作助手（写作通用）：用GLM-4.7跑热点扫描+文章生成，还超省钱！

比R1快8倍，智谱开源GLM-Z1系列，实测 Agentic AI 也能极速深度推理！

智谱AI，彻底爆了！开源模型GLM-4.5，能力全面SOTA