智谱AI发布视觉推理系列模型GLM-4.1V-Thinking,Flash版API免费调用【AI早报 2025-07-03】

智谱AI发布视觉推理系列模型GLM-4.1V-Thinking,Flash版API免费调用【AI早报 2025-07-03】

  • 智谱AI发布多模态模型GLM-4.1V-Thinking,Flash版API免费调用
  • GitHub Copilot编程代理集成网络浏览器
  • DeepSeek疑似在LMSYS Arena上测试新隐形模型
  • TNG发布基于DeepSeek的混合专家模型Chimera
  • 苹果发布7B代码生成扩散模型DiffuCoder
  • Together.AI发布软件工程代理模型DeepSWE
  • 百度发布视频生成模型MuseSteamer,可从单图生成有声高清视频
  • AI代理浏览器 Fellou 发布 Windows 版本

概要:智谱AI发布了多模态模型
GLM-4.1V-Thinking系列,获得10亿元战略投资,并宣布新模型Flash版API免费调用。

智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型,并宣布获得来自浦东创投集团张江集团10亿元联合战略投资。同时,公司推出了全新生态平台“Agent应用空间”,并启动“Agents开拓者计划”,投入数亿资金扶持AI Agents创业团队。为庆祝模型发布,智谱大模型开放平台为用户提供新模型Flash1亿的“高并发版”Tokens,同时,该模型可通过API免费使用。

此次率先开源的是GLM-4.1V-9B-Thinking,一个9B参数量的多模态模型,对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72BGPT-4o等主流视觉语言模型。模型具备强大的多模态能力,能够解析长达2小时的视频、进行数学与科学推理、看图编写网页,并具备GUI Agent能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。

GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成,其卓越性能得益于引入了“课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。目前,GLM-4.1V-9B-Thinking模型已在GitHub魔搭社区Hugging Face上开源。

https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo


概要:GitHub宣布其Copilot编程代理现已内置专属网络浏览器,可直接访问网络信息辅助开发。

GitHub宣布,其Copilot编程代理Copilot coding agent)现已内置了专属的网络浏览器。这项新功能使得Copilot能够直接访问和利用网络信息,以更好地协助开发者完成编码任务。

https://github.blog/changelog/2025-07-02-copilot-coding-agent-now-has-its-own-web-browser


概要:一个自称来自DeepSeek、名为“steve”的新模型现身LMSYS Chatbot Arena进行匿名测试。

一个名为“steve”的新模型出现在了LMSYS Chatbot Arena上进行匿名测试。据称,该模型在对话中表明其来自DeepSeek公司。


概要:德国TNG公司发布了基于DeepSeek的混合专家模型
DeepSeek-TNG R1T2 Chimera,运行速度比
DeepSeek R1快约20%。

德国TNG技术咨询公司TNG Technology Consulting GmbH)发布了一款名为DeepSeek-TNG R1T2 Chimera的新型开源权重模型。该模型是一个“三脑专家集合”(Tri-Mind Assembly-of-Experts)模型,整合了DeepSeekR1-0528R1V3-0324三个父模型。据称,R1T2模型的运行速度比DeepSeek R1模型快约20%。

https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera


概要:苹果公司发布了专为代码生成设计的7B参数扩散模型
DiffuCoder系列,并已在Hugging Face上开源。

苹果公司发布了DiffuCoder系列全新代码生成模型。该模型是一个7B参数量的扩散模型,专为代码生成任务设计。目前,DiffuCoder的基础版和指令微调版均已在Hugging Face上提供。

https://huggingface.co/apple/DiffuCoder-7B-cpGRPO


概要:Together.AI与Agentica合作发布了开源软件工程代理模型
DeepSWE,在SWE-Bench基准测试中表现优异。

Together.AIAgentica合作发布了一款名为DeepSWE的开源软件工程代理模型。该模型在Qwen3-32B的基础上,仅通过强化学习RL)进行训练,专注于解决软件工程问题。

DeepSWESWE-Bench Verified基准测试中取得了显著成果,其pass@1分数从基准模型的23%提升至42.2%,在使用测试时扩展(test-time scaling)技术后,该分数更达到了59.0%。这一性能使其在SWEBench开源权重模型排行榜上名列前茅。


概要:百度发布了全球首个中文音视频一体化生成模型
MuseSteamer,可从单图生成长达10秒的有声高清视频。

百度商业研智谱 AI GLM 教程发团队发布了自研的视频生成模型“MuseSteamer”及其配套创作平台“绘想”。该模型是全球首个实现中文音视频一体化生成的视频模型,能够协同创作画面、音效及人声台词,打破了传统AIGC视频“先生成画面后配音”的割裂式工作流程。

MuseSteamer支持从一张静态图片生成长达10秒1080p电影级画质视频,其人物微表情和运镜效果可达到专业影视水准。在权威视频生成模型榜单VBench I2V中,该模型以89.38%的总分排名全球第一。其核心技术基于亿级中文多模态数据清洗、精细化的视频结构化描述语言以及多目标强化学习等优化。

MuseSteamer模型家族包含TurboLitePro及全系列有声版本,以满足不同创作者的需求。目前,Turbo版已在“绘想”平台上线,并开启限时免费公测,其余版本计划于8月陆续开放。


概要:首款专为Windows系统设计的AI代理浏览器Fellou正式发布,主打智能体验与隐私保护。

一款名为FellouAI代理浏览器agentic browser)现已正式登陆Windows平台。据介绍,这是首款专为Windows系统设计的代理浏览器,旨在提供比传统浏览器更智能的体验,并注重用户隐私保护。


作者@橘鸦Juya,视频版在同名哔哩哔哩。如果对你有所帮助,欢迎点赞、关注、分享。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/263817.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午9:24
下一篇 2026年3月12日 下午9:24


相关推荐

关注全栈程序员社区公众号