阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

1 月 30 日消息,阿里千问今天在公众号平台发文,宣布推出新一代 Agent 基准测试 DeepPlanning。

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

据介绍,DeepPlanning 千问 Qwen 教程 与传统的推理任务截然不同,要求 AI 在面对现实世界的复杂规划时通盘考虑不能只专注于局部

例如:多日旅行规划要精确到分钟级排期,同时守住时间、预算的硬上限;复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减,以实现整体价格最优。而且这些“硬要求”不只是让 AI 单纯在哪一步完成就好,必须贯穿整个计划始终。

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

最终实测结果表明,即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有 100% 自主决策能力的“行动派”还有一定距离。

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

值得注意的是,阿里千问还在 Hugging Face 和 ModelScope 平台开源了这款基准,IT之家附上链接如下:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/260772.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午7:05
下一篇 2026年3月13日 上午7:05


相关推荐

关注全栈程序员社区公众号