登顶全球第一!阶跃星辰成为龙虾(OpenClaw)中使用最多的模型!

登顶全球第一!阶跃星辰成为龙虾(OpenClaw)中使用最多的模型!

3月5号,(就是大家喊“小龙虾”的那个全球顶流AI智能体平台)最新调用榜出来了

直接冲到全球第一

图片

数据一出来挺扎眼:前五名里,中国模型占了三个席位(Step 3.5 Flash、MiniMax M2.5、Kimi K2.5),这还是国产大模型头一次在全球最硬核的里实现这种霸榜。

先搞懂,OpenClaw是什么?阶跃星辰又是?

简单说,OpenClaw不是聊天机器人,它是个能真正动手干活的AI智能体

你给它下个指令,它就能自己打开电脑、写代码、发邮件、管文件、写代码,像个24小时在线的数字员工一样帮你忙活。

它在GitHub上星标早已经是历史第一了(264k),可以说今年现象级AI应用。

图片

这个榜单来源于的统计,OpenRouter是全球最大的 AI 模型 API 聚合平台,它不是模型提供商,相当于二道贩子。你买OpenRouter会员,就能调用全球500+ 模型。

图片

榜单呢?完全是真实调用量投票——开发者每天真金白银地调用模型,谁用得多谁上榜,纯用脚投票,没水分。

所以登顶OpenClaw,意思可不一样。它不是纸面跑分赢了,而是真正被开发者拿去落地、干活、解决实际问题了。这含金量,拉满。

再说说阶跃星辰:低调的AI黑马

这家公司可能很多人还不太熟悉。

图片

阶跃星辰是 2023 年 4 月成立的 AI 公司,总部在上海。创始人姜大昕以前是微软全球副总裁,现在的董事长是前旷视科技创始人印奇,核心团队都是 AI 领域的大牛。(我之前的文章介绍过它家的模型)

就在前不久,他们刚完成了超 50 亿元人民币的 B + 轮融资,刷新了过去 12 个月中国 AI 赛道的单笔最高融资纪录。

图片

而这次登顶的 Step 3.5 Flash,是他们专门为 Agent 场景设计的模型,主打复杂推理和长链任务,在 上已经积累了超 32 万次下载。

图片

最重要的事!他们刚把Step 3.5 Flash全链路开源(连预训练权重、中训权重和训练框架都放出来了),是真的“OpenAI”!

Step 3.5 Flash能力到底如何?硬核解读下

先说说硬参数。

架构是,总参数1960亿,激活110亿。

推理速度飞快,达到100–300 tok/s

本地部署的硬件门槛相当亲民,11B 激活参数,支持在 Mac Studio M4 Max 等消费级硬件上流畅运行。

图片

从上图官方给出的数据可以看出

推理(数学/逻辑):顶级 

AIME 2025:97.3(仅次OpenAI 100.0);IMOAnswerBench:85.4(接近OpenAI 86.3);HMMT 2025:96.2(接近OpenAI 98.3)。 明显优于多数竞品(Z、K、diamond等),说明复杂链式思考能力强。

编码:中等偏上

LiveCodeBench-V6:86.4(接近OpenAI 87.7,优于多数);SWE-bench Verified:74.4(落后sun 80.9和OpenAI 80.0);Terminal-Bench 2.0:51.0(中游,落后sun 59.3)。 擅长LeetCode式实时编码,复杂工程/终端操作有提升空间。

Agent(工具使用/多步执行):强项

 τ²-Bench:88.2(接近领先);BrowseComp(带上下文):69.0(高于OpenAI openclaw 龙虾 65.8);xbench-DeepSearch:56.3(明显落后OpenAI 75.0)。 浏览器/规划任务出色,深度搜索/长链研究稍弱。

总体来说,它是个效率怪物。

激活参数仅11B,推理成本低、延迟小,适合实时多轮交互。(推理速度可以说是目前最快的,Gemini 3.1 Flash-Lite刚出他俩谁快还需要看下)

官方给的UI生成效果也不错,已经可以拿来就用了。

图片

缺点也很明显。

SWE和xbench-DeepSearch落后明显,复杂软件工程或深度研究时会感觉“差点意思”。聊天、创意写作、长篇生成不如Kimi/Claude/GPT流畅。

它适合干啥?

AI Agent开发,就是适合干活。

浏览器自动化、终端操作、工具调用、多步工作流,企业内部工具、本地服务器跑、需要快响应的生产环境。

你可以把它当作一个勤快但是能力平庸的员工,执行力很强,但是不能做研究型的工作。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/259488.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午8:17
下一篇 2026年3月13日 上午8:18


相关推荐

关注全栈程序员社区公众号