GLM4.5V视觉模型小试牛刀

智谱 AI GLM 教程

GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型，基于新一代旗舰文本基座模型 GLM-4.5-Air 开发，延续了 GLM-4.1V-Thinking 技术路线。

参数规模：总参数 106B，激活参数 12B。
性能表现：在 41 个公开视觉多模态任务中，综合效果达到同级别开源模型 SOTA（State-of-the-Art），涵盖图像、视频、文档理解及 GUI Agent 等场景。
基准测试：在 12 项行业标准评测中，GLM-4.5V 得分 63.2，全球排名第三，国产第一，开源模型中位列榜首。

我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本，能够对文本进行总结、翻译、图表提取等操作；此外，还能在给定信息的基础上输出自己的”观点”。与传统的OCR信息提取+文本模型解读的方式不同，GLM-4.5V会像人类一样，以视觉方式读取文档中的每一页图片，避免了信息提取过程中的错误传递，实现了文字与图像的同时理解，因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如，我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告，让它翻译并解读其中的技术亮点。

GPT-5 系统卡翻译（节选关键章节）

缓解措施：我们教导模型遵循指令层级[2]。高层级上，我们将发送给模型的邮件分为三类：系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息，且开发者消息优先于用户消息”的指令。

我们首先评估 `gpt-5-thinking` 和 `gpt-5-main` 在代表真实 ChatGPT 生产对话的提示上的事实准确性，使用基于 LLM 的评分模型结合网络访问识别主要和次要错误。我们验证了评分器质量：让人类独立评估声明与人类判断的差异，发现我们的评分器比人类更倾向于正确识别事实错误。

我们发现 `gpt-5-main` 存在幻觉的概率（即包含次要或主要错误的 factually claims 占比）为 66%，比 OpenAI o3 低 29%。在语句级别，我们测量 5% 的响应存在至少一个主要事实错误，而 `gpt-5-thinking` 比 GPT-4o 少 44%，`gpt-5-main` 比 OpenAI o3 少 78%。

GPT-5 的技术突破体现在安全性、准确性、多领域适应性三大维度，结合结构化评估与缓解措施，实现“能力提升”与“风险可控”的平衡：

异常了。我们让他翻译全文，出了问题，如下片段重复进行死循环

Hang住了

全文翻译稳定性赶不上QWEN3

我们上传一个已经下载好的MP4视频，来自 https://www.youtube.com/watch?v=AJpK3YTTKZ4

输出

根据您提供的视频截图，这是一个关于Anthropic公司最新人工智能编程工具“Claude Code”的产品演示视频。以下是视频的详细内容分析：

2. 核心演示流程

3. 视频传达的信息

总而言之，这个视频是一个功能强大且令人印象深刻的AI编程工具 demonstration，旨在向开发者群体展示Claude Code在未来软件开发工作流中可能扮演的革命性角色。

视频提问题

之前我们测试过Qwen2 VL模型，基于QwenVL2.5模块实现发票识别，

通过官方BigModel平台的API调用，JAVA示例代码

依赖(其下部分依赖有漏洞，请大家自行升级)

<dependency>
 <groupId>ai.z.openapi</groupId>
 <artifactId>zai-sdk</artifactId>
 <version>0.0.2</version>
</dependency>

测试代码

 
  
  public class Main else 

 long endTime = System.currentTimeMillis();
 double duration = (endTime - startTime) / 1000.0;
 System.out.println("方法运行时间: " + duration + " 秒");
 }
}

发票识别方法运行时间: 22.257 秒，正确率100%

GLM4.5V看上去另一个视觉模型后期之秀，场景如UI自动化配置Midscene.js的AI视觉识别，在视频理解，复制网页，图像识别正确率相比其他模型有所进步。目前开源可以自行部署。

今天先到这儿，希望对AI，云原生，技术领导力，企业管理，系统架构设计与评估，团队管理, 项目管理, 产品管理，信息安全，团队建设有参考作用 , 您可能感兴趣的文章:

微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理资讯，请关注我的微信订阅号：

_thumb_thumb_thumb_thumb_thumb_thumb

作者：Petter Liu
出处：http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。该文章也同时发布在我的独立博客中-Petter Liu Blog。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/264698.html原文链接：https://javaforall.net

GLM4.5V视觉模型小试牛刀

关于作者

Ai探索者网站注册用户

GLM4.5V视觉模型小试牛刀

关于作者

Ai探索者网站注册用户

相关推荐

智谱GLM-5已完成与华为昇腾、摩尔线程、寒武纪等主流国产芯片平台适配

智谱AI GLM-OCR

智谱AI向左，MiniMax向右：港股同一考场，AI两种活法

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

智谱再获10亿融资，推出会看“苏超”的开源新模型

三大AI巅峰对决：ChatGPT4-turbo、文心一言4、智谱清言GLM-4横向评测