智谱AI发布视觉推理系列模型GLM-4.1V-Thinking，Flash版API免费调用【AI早报 2025-07-03】

智谱AI发布多模态模型GLM-4.1V-Thinking，Flash版API免费调用
GitHub Copilot编程代理集成网络浏览器
DeepSeek疑似在LMSYS Arena上测试新隐形模型
TNG发布基于DeepSeek的混合专家模型Chimera
苹果发布7B代码生成扩散模型DiffuCoder
Together.AI发布软件工程代理模型DeepSWE
百度发布视频生成模型MuseSteamer，可从单图生成有声高清视频
AI代理浏览器 Fellou 发布 Windows 版本

概要：智谱AI发布了多模态模型
GLM-4.1V-Thinking系列，获得10亿元战略投资，并宣布新模型Flash版API免费调用。

智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型，并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。同时，公司推出了全新生态平台“Agent应用空间”，并启动“Agents开拓者计划”，投入数亿资金扶持AI Agents创业团队。为庆祝模型发布，智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens，同时，该模型可通过API免费使用。

此次率先开源的是GLM-4.1V-9B-Thinking，一个9B参数量的多模态模型，对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越，其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。模型具备强大的多模态能力，能够解析长达2小时的视频、进行数学与科学推理、看图编写网页，并具备GUI Agent能力，可识别并操作手机、电脑等屏幕界面元素，完成用户指令。例如，在解析足球比赛时，模型能理解球员位置和战术特点。

GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成，其卓越性能得益于引入了“课程采样强化学习”（Reinforcement Learning with Curriculum Sampling）策略，通过由易到难的训练任务安排，高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。目前，GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。

https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

概要：GitHub宣布其Copilot编程代理现已内置专属网络浏览器，可直接访问网络信息辅助开发。

GitHub宣布，其Copilot编程代理（Copilot coding agent）现已内置了专属的网络浏览器。这项新功能使得Copilot能够直接访问和利用网络信息，以更好地协助开发者完成编码任务。

https://github.blog/changelog/2025-07-02-copilot-coding-agent-now-has-its-own-web-browser

概要：一个自称来自DeepSeek、名为“steve”的新模型现身LMSYS Chatbot Arena进行匿名测试。

一个名为“steve”的新模型出现在了LMSYS Chatbot Arena上进行匿名测试。据称，该模型在对话中表明其来自DeepSeek公司。

概要：德国TNG公司发布了基于DeepSeek的混合专家模型
DeepSeek-TNG R1T2 Chimera，运行速度比
DeepSeek R1快约20%。

德国TNG技术咨询公司（TNG Technology Consulting GmbH）发布了一款名为DeepSeek-TNG R1T2 Chimera的新型开源权重模型。该模型是一个“三脑专家集合”（Tri-Mind Assembly-of-Experts）模型，整合了DeepSeek的R1-0528、R1和V3-0324三个父模型。据称，R1T2模型的运行速度比DeepSeek R1模型快约20%。

https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

概要：苹果公司发布了专为代码生成设计的7B参数扩散模型
DiffuCoder系列，并已在Hugging Face上开源。

苹果公司发布了DiffuCoder系列全新代码生成模型。该模型是一个7B参数量的扩散模型，专为代码生成任务设计。目前，DiffuCoder的基础版和指令微调版均已在Hugging Face上提供。

https://huggingface.co/apple/DiffuCoder-7B-cpGRPO

概要：Together.AI与Agentica合作发布了开源软件工程代理模型
DeepSWE，在SWE-Bench基准测试中表现优异。

Together.AI与Agentica合作发布了一款名为DeepSWE的开源软件工程代理模型。该模型在Qwen3-32B的基础上，仅通过强化学习（RL）进行训练，专注于解决软件工程问题。

DeepSWE在SWE-Bench Verified基准测试中取得了显著成果，其pass@1分数从基准模型的23%提升至42.2%，在使用测试时扩展（test-time scaling）技术后，该分数更达到了59.0%。这一性能使其在SWEBench开源权重模型排行榜上名列前茅。

概要：百度发布了全球首个中文音视频一体化生成模型
MuseSteamer，可从单图生成长达10秒的有声高清视频。

百度商业研智谱 AI GLM 教程发团队发布了自研的视频生成模型“MuseSteamer”及其配套创作平台“绘想”。该模型是全球首个实现中文音视频一体化生成的视频模型，能够协同创作画面、音效及人声台词，打破了传统AIGC视频“先生成画面后配音”的割裂式工作流程。

MuseSteamer支持从一张静态图片生成长达10秒的1080p电影级画质视频，其人物微表情和运镜效果可达到专业影视水准。在权威视频生成模型榜单VBench I2V中，该模型以89.38%的总分排名全球第一。其核心技术基于亿级中文多模态数据清洗、精细化的视频结构化描述语言以及多目标强化学习等优化。

MuseSteamer模型家族包含Turbo、Lite、Pro及全系列有声版本，以满足不同创作者的需求。目前，Turbo版已在“绘想”平台上线，并开启限时免费公测，其余版本计划于8月陆续开放。

概要：首款专为Windows系统设计的AI代理浏览器Fellou正式发布，主打智能体验与隐私保护。

一款名为Fellou的AI代理浏览器（agentic browser）现已正式登陆Windows平台。据介绍，这是首款专为Windows系统设计的代理浏览器，旨在提供比传统浏览器更智能的体验，并注重用户隐私保护。

作者@橘鸦Juya，视频版在同名哔哩哔哩。如果对你有所帮助，欢迎点赞、关注、分享。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/263817.html原文链接：https://javaforall.net

智谱AI发布视觉推理系列模型GLM-4.1V-Thinking，Flash版API免费调用【AI早报 2025-07-03】

关于作者

Ai探索者网站注册用户

智谱AI发布视觉推理系列模型GLM-4.1V-Thinking，Flash版API免费调用【AI早报 2025-07-03】

关于作者

Ai探索者网站注册用户

相关推荐

智谱AI发布AutoGLM 2.0 – 首个为手机而生的通用Agent。

智谱 GLM-4.6V 实现『看图做事』能力大飞跃，在多模态 AI 领域有何颠覆性突破？

Claude Code使用智谱GLM 4.6 API Key用法总结

那个霸榜的Pony Alpha现身了：智谱GLM-5硬刚Claude Opus

AI“六小虎”之一智谱回应裁员：正常组织调整

ChatGLM4部署教程（非常详细）零基础入门到精通，收藏这篇就够了