腾讯混元 T1 0711 测评

腾讯混元 T1 0711 测评

短的结论:小步快跑的同时,步子也越迈越长
基本信息:

  • 成本:4块每百万
  • 速度:约79字每秒
  • 平均长度:约22105字
  • 平均耗时:272秒
腾讯混元 T1 0711 测评

*表格为了突出对比关系,有一定裁剪,不是完整排序
测试方式:参见

大语言模型-逻辑能力横评 25-06月榜(R1/Gemini 2.5/Doubao-Seed-1.6)

*完整榜单更新在Github

勤奋的腾讯混元团队带着月更的T1推理模型来了,低调的混元团队这次没有发布任何公告(或者还没来得及),只在腾讯云上线,看起来是个小更新,但其实是DeepSeek定义的“小更新”。
如果说前几次月更,T1的改进是小步快跑,每次解决一部分问题,那么此次更新就堪称全面升级。推理,计算,上下文等能力相比旧版无劣化,整体可用性得到极大增强。虽然在官方宣传词中也生成代码能力有提升,但从小样本测试来看其能力距离基础可用还有较大差异,因此本轮仍不将其纳入编程测试范围。
在T1性能提升的同时,其输出长度和耗时也在同步提升,从最初4月版本平均14000字,到5月版本16000字,再到最新版22000字,可谓一路上涨,涨幅57%。好在T1足够便宜,其综合成本在一众第二梯队模型中,还算有性价比。

改进:

  • 计算精度:T1的计算能力持续改进,最新版本已能在标准计算中稳定保持高精度,尤其#22连续计算,计算过程多,精度要求高,能拿到满分的模型并不多,仅个位数。而T1此次3pass均拿到满分。#38函数求交也全对且无误差。
  • 解题思路:在较复杂的问题上,T1表现出更拟人的解题思路,如#23密码解密,T1在使用暴力短暂尝试激活成功教程后,立刻意识到了规律,应用规律后很快激活成功教程。#29符号还原问题,相比一些模型上手就开始遍历运算符排列组合,T1先对问题进行形式化变换,缩小解空间,再小心求证,逐个突破,几乎和人类思考习惯一致。

不足:

  • 字符幻觉:字符问题是混元系列的老问题,半年以来改进甚微,但本次0711版本确实可见一些显著优化。较简单的#33洗牌分牌可以正确计算牌数,拿到元宝 混元 Hunyuan 教程满分,#9单词缩写,在旧版0521版基础上得分率再次提高。但整体表现在同梯队模型中仍然偏下,尤其复杂问题下,其对字符的辨识能力直线下滑。
  • 输出失控:T1有不小概率,在推理结束后的正式输出阶段,继续“打草稿”,输出冗长无效的思考信息。冗长到模型自己都意识到不能这样了,说出“哦,我的天,我是不是应该停止纠结,直接提交这个答案? ”,然后提交一个错误答案。
  • 指令遵循:指令问题也是混元系列的积弊,多个版本优化较小,0711也不例外,指令相关问题,无论遵循难度高低,T1都有概率混淆,无视指令。如#10水果热量,T1会提交热量达不到要求的答案,其推理过程认为虽然热量不够,但差不多也行。#30日记整理更是和旧版表现相近,看不到改进。受此影响,在考察代码推导的#40题中,T1也会出现搞错代码逻辑的现象。

赛博史官曰:
1月时,国内掀起了接入DeepSeek R1的热潮,腾讯混元凭借较早接入R1,短时大量用户从其他App,包括豆包迁移到元宝,而彼时的字节豆包App团队选择等待自家推理模型,抗住内外部压力不接R1。字节在一个季度后的4月,推理模型首秀就超过了R1,可谓自信坚定走自己的路。
而求稳的腾讯选择自己擅长的打法,先圈住用户,再徐图改进,上半年自家的混元模型一直在每月迭代,每次少量改进,在追赶6个月之后,也超过了初代R1。至此老牌御三家BAT的大模型在第二梯队顺利会师。
但混元团队的志向恐怕不会止步于此。

延伸阅读:

腾讯混元TurboS- & T1 0521 测评

目前所有评测文章在公众号:大模型观测员 同步更新。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/259171.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午8:36
下一篇 2026年3月13日 上午8:36


相关推荐

关注全栈程序员社区公众号