GLM4.5V视觉模型小试牛刀

GLM4.5V视觉模型小试牛刀

智谱 AI GLM 教程image

GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型,基于新一代旗舰文本基座模型 GLM-4.5-Air 开发,延续了 GLM-4.1V-Thinking 技术路线。

  • 参数规模:总参数 106B,激活参数 12B。
  • 性能表现:在 41 个公开视觉多模态任务中,综合效果达到同级别开源模型 SOTA(State-of-the-Art),涵盖图像、视频、文档理解及 GUI Agent 等场景。
  • 基准测试:在 12 项行业标准评测中,GLM-4.5V 得分 63.2,全球排名第三,国产第一,开源模型中位列榜首。

image

我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的”观点”。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告,让它翻译并解读其中的技术亮点。

imageGL

GPT-5 系统卡翻译(节选关键章节) 

缓解措施:我们教导模型遵循指令层级[2]。高层级上,我们将发送给模型的邮件分为三类:系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息,且开发者消息优先于用户消息”的指令。 

我们首先评估 `gpt-5-thinking` 和 `gpt-5-main` 在代表真实 ChatGPT 生产对话的提示上的事实准确性,使用基于 LLM 的评分模型结合网络访问识别主要和次要错误。我们验证了评分器质量:让人类独立评估声明与人类判断的差异,发现我们的评分器比人类更倾向于正确识别事实错误。 

我们发现 `gpt-5-main` 存在幻觉的概率(即包含次要或主要错误的 factually claims 占比)为 66%,比 OpenAI o3 低 29%。在语句级别,我们测量 5% 的响应存在至少一个主要事实错误,而 `gpt-5-thinking` 比 GPT-4o 少 44%,`gpt-5-main` 比 OpenAI o3 少 78%。 

GPT-5 的技术突破体现在安全性、准确性、多领域适应性三大维度,结合结构化评估与缓解措施,实现“能力提升”与“风险可控”的平衡: 

异常了。我们让他翻译全文,出了问题,如下片段重复进行死循环

image

Hang住了

image

全文翻译稳定性赶不上QWEN3

image

我们上传一个已经下载好的MP4视频,来自 https://www.youtube.com/watch?v=AJpK3YTTKZ4

image

输出

根据您提供的视频截图,这是一个关于Anthropic公司最新人工智能编程工具“Claude Code”的产品演示视频。以下是视频的详细内容分析:

2. 核心演示流程

3. 视频传达的信息

总而言之,这个视频是一个功能强大且令人印象深刻的AI编程工具 demonstration,旨在向开发者群体展示Claude Code在未来软件开发工作流中可能扮演的革命性角色。

视频提问题

之前我们测试过Qwen2 VL模型,基于QwenVL2.5模块实现发票识别

image

通过官方BigModel平台的API调用,JAVA示例代码

依赖(其下部分依赖有漏洞,请大家自行升级)

<dependency>
<groupId>ai.z.openapi</groupId>
<artifactId>zai-sdk</artifactId>
<version>0.0.2</version>
</dependency>



测试代码

 
 
public class Main else

long endTime = System.currentTimeMillis();
double duration = (endTime - startTime) / 1000.0;
System.out.println("方法运行时间: " + duration + " 秒");
}
}





发票识别方法运行时间: 22.257 秒,正确率100%

       GLM4.5V看上去另一个视觉模型后期之秀,场景如UI自动化配置Midscene.js的AI视觉识别,在视频理解,复制网页,图像识别正确率相比其他模型有所进步。目前开源可以自行部署。



今天先到这儿,希望对AI,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:

微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

_thumb_thumb_thumb_thumb_thumb_thumb

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 该文章也同时发布在我的独立博客中-Petter Liu Blog。


























版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/264698.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午8:36
下一篇 2026年3月12日 下午8:36


相关推荐

关注全栈程序员社区公众号