- 智谱AI发布多模态模型GLM-4.1V-Thinking,Flash版API免费调用
- GitHub Copilot编程代理集成网络浏览器
- DeepSeek疑似在LMSYS Arena上测试新隐形模型
- TNG发布基于DeepSeek的混合专家模型Chimera
- 苹果发布7B代码生成扩散模型DiffuCoder
- Together.AI发布软件工程代理模型DeepSWE
- 百度发布视频生成模型MuseSteamer,可从单图生成有声高清视频
- AI代理浏览器 Fellou 发布 Windows 版本
概要:智谱AI发布了多模态模型
GLM-4.1V-Thinking系列,获得10亿元战略投资,并宣布新模型Flash版API免费调用。
智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型,并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。同时,公司推出了全新生态平台“Agent应用空间”,并启动“Agents开拓者计划”,投入数亿资金扶持AI Agents创业团队。为庆祝模型发布,智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens,同时,该模型可通过API免费使用。
此次率先开源的是GLM-4.1V-9B-Thinking,一个9B参数量的多模态模型,对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。模型具备强大的多模态能力,能够解析长达2小时的视频、进行数学与科学推理、看图编写网页,并具备GUI Agent能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。
GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成,其卓越性能得益于引入了“课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。目前,GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。
https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
概要:GitHub宣布其Copilot编程代理现已内置专属网络浏览器,可直接访问网络信息辅助开发。
GitHub宣布,其Copilot编程代理(Copilot coding agent)现已内置了专属的网络浏览器。这项新功能使得Copilot能够直接访问和利用网络信息,以更好地协助开发者完成编码任务。
https://github.blog/changelog/2025-07-02-copilot-coding-agent-now-has-its-own-web-browser
概要:一个自称来自DeepSeek、名为“steve”的新模型现身LMSYS Chatbot Arena进行匿名测试。
一个名为“steve”的新模型出现在了LMSYS Chatbot Arena上进行匿名测试。据称,该模型在对话中表明其来自DeepSeek公司。
概要:德国TNG公司发布了基于DeepSeek的混合专家模型
DeepSeek-TNG R1T2 Chimera,运行速度比
DeepSeek R1快约20%。
德国TNG技术咨询公司(TNG Technology Consulting GmbH)发布了一款名为DeepSeek-TNG R1T2 Chimera的新型开源权重模型。该模型是一个“三脑专家集合”(Tri-Mind Assembly-of-Experts)模型,整合了DeepSeek的R1-0528、R1和V3-0324三个父模型。据称,R1T2模型的运行速度比DeepSeek R1模型快约20%。
https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
概要:苹果公司发布了专为代码生成设计的7B参数扩散模型
DiffuCoder系列,并已在Hugging Face上开源。
苹果公司发布了DiffuCoder系列全新代码生成模型。该模型是一个7B参数量的扩散模型,专为代码生成任务设计。目前,DiffuCoder的基础版和指令微调版均已在Hugging Face上提供。
https://huggingface.co/apple/DiffuCoder-7B-cpGRPO
概要:Together.AI与Agentica合作发布了开源软件工程代理模型
DeepSWE,在SWE-Bench基准测试中表现优异。
Together.AI与Agentica合作发布了一款名为DeepSWE的开源软件工程代理模型。该模型在Qwen3-32B的基础上,仅通过强化学习(RL)进行训练,专注于解决软件工程问题。
DeepSWE在SWE-Bench Verified基准测试中取得了显著成果,其pass@1分数从基准模型的23%提升至42.2%,在使用测试时扩展(test-time scaling)技术后,该分数更达到了59.0%。这一性能使其在SWEBench开源权重模型排行榜上名列前茅。
概要:百度发布了全球首个中文音视频一体化生成模型
MuseSteamer,可从单图生成长达10秒的有声高清视频。
百度商业研智谱 AI GLM 教程发团队发布了自研的视频生成模型“MuseSteamer”及其配套创作平台“绘想”。该模型是全球首个实现中文音视频一体化生成的视频模型,能够协同创作画面、音效及人声台词,打破了传统AIGC视频“先生成画面后配音”的割裂式工作流程。
MuseSteamer支持从一张静态图片生成长达10秒的1080p电影级画质视频,其人物微表情和运镜效果可达到专业影视水准。在权威视频生成模型榜单VBench I2V中,该模型以89.38%的总分排名全球第一。其核心技术基于亿级中文多模态数据清洗、精细化的视频结构化描述语言以及多目标强化学习等优化。
MuseSteamer模型家族包含Turbo、Lite、Pro及全系列有声版本,以满足不同创作者的需求。目前,Turbo版已在“绘想”平台上线,并开启限时免费公测,其余版本计划于8月陆续开放。
概要:首款专为Windows系统设计的AI代理浏览器Fellou正式发布,主打智能体验与隐私保护。
一款名为Fellou的AI代理浏览器(agentic browser)现已正式登陆Windows平台。据介绍,这是首款专为Windows系统设计的代理浏览器,旨在提供比传统浏览器更智能的体验,并注重用户隐私保护。
作者@橘鸦Juya,视频版在同名哔哩哔哩。如果对你有所帮助,欢迎点赞、关注、分享。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/263817.html原文链接:https://javaforall.net
