据沐曦股份MetaX消息,智谱AI今日正式发布并开源了轻量级专业OCR模型GLM-OCR,该模型以“小尺寸、高精度”为特点,在多项权威评测中取得领先性能。同时,沐曦股份的曦云C500/C550 GPU凭借其高生态兼容性,已高效完成与GLM-OCR的Day 0适配,为主流大模型提供“发布即能用”的国产算力支持。
GLM-OCR的核心亮点在于其卓越的性能、广泛的场景适应能力、高效的推理效率以及开源易用的特性。具体表现如下:
性能SOTA:该模型在权威文档解析榜单OmniDocBench V1.5上以94.6分登顶,并在公式识别、表格识别、信息抽取等多个主流基准测试中均取得最佳(SOTA)表现,性能接近Gemini-3-Pro。
场景优化:模型专攻真实业务痛点,在手写体、复杂表格、代码文档及印章等高难度识别场景中表现稳健。
推理高效:GLM-OCR参数量仅为0.9B,支持vLLM和SGLang部署,能显著降低推理延迟与算力开销,适合高并发与边缘部署。实测中,其处理PDF文档的吞吐量达1.86页/秒,处理图片达0.67张/秒,速度优于同类模型。
开源易用:智谱同步开源了完整的SDK与推理工具链,支持一行命令快速调用,便于开发者轻松接入现有业务系统。其API调用成本约为0.2元/百万Tokens,成本约为传统OCR方案的十分之一。
在实际应用方面,GLM-OCR展现出强大的解析能力:
通用文本识别:支持照片、截图、扫描件、文档等多种输入,能够准确识别手写体、印章、代码等特殊文字。
复杂表格解析:针对合并单元格、多层表头等复杂结构,模型能精准理解并直接输出HTML代码,无需二次制表,大幅提升效率。
信息结构化提取:可从各类卡证、票据、表格中智能提取关键字段,并输出标准JSON格式,便于对接银行、保险、物流等行业系统。
批量处理与RAG支持:支持大批量文档的识别与解析,其高精度识别和规整的输出格式,可为检索增强生成(RAG)提供坚实基础。
此次曦云C500/C550 GPU基于Transformer和vLLM框架对GLM-OCR进行适配,在保持优异精度的同时,实现了高性能、低延迟的推理。这延续了沐曦与智谱AI在模型适配上的高效合作,充分体现了沐曦MXMACA软件栈与曦云C系列的高兼容性与快速适配能力。
GLM-OCR模型及相关资源已在Github、Hugging Face及智谱开放平台等多个渠道开源,并提供在线体验。
原文:曦云C智谱 AI GLM 教程500/C550 Day 0 适配智谱GLM-OCR(来源:沐曦股份MetaX)
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/268172.html原文链接:https://javaforall.net
