腾讯混元 T1 0711 测评

短的结论：小步快跑的同时，步子也越迈越长
基本信息：

成本：4块每百万
速度：约79字每秒
平均长度：约22105字
平均耗时：272秒

*表格为了突出对比关系，有一定裁剪，不是完整排序
测试方式：参见

大语言模型-逻辑能力横评 25-06月榜(R1/Gemini 2.5/Doubao-Seed-1.6)

*完整榜单更新在Github

勤奋的腾讯混元团队带着月更的T1推理模型来了，低调的混元团队这次没有发布任何公告（或者还没来得及），只在腾讯云上线，看起来是个小更新，但其实是DeepSeek定义的“小更新”。
如果说前几次月更，T1的改进是小步快跑，每次解决一部分问题，那么此次更新就堪称全面升级。推理，计算，上下文等能力相比旧版无劣化，整体可用性得到极大增强。虽然在官方宣传词中也生成代码能力有提升，但从小样本测试来看其能力距离基础可用还有较大差异，因此本轮仍不将其纳入编程测试范围。
在T1性能提升的同时，其输出长度和耗时也在同步提升，从最初4月版本平均14000字，到5月版本16000字，再到最新版22000字，可谓一路上涨，涨幅57%。好在T1足够便宜，其综合成本在一众第二梯队模型中，还算有性价比。

改进：

计算精度：T1的计算能力持续改进，最新版本已能在标准计算中稳定保持高精度，尤其#22连续计算，计算过程多，精度要求高，能拿到满分的模型并不多，仅个位数。而T1此次3pass均拿到满分。#38函数求交也全对且无误差。
解题思路：在较复杂的问题上，T1表现出更拟人的解题思路，如#23密码解密，T1在使用暴力短暂尝试激活成功教程后，立刻意识到了规律，应用规律后很快激活成功教程。#29符号还原问题，相比一些模型上手就开始遍历运算符排列组合，T1先对问题进行形式化变换，缩小解空间，再小心求证，逐个突破，几乎和人类思考习惯一致。

不足：

字符幻觉：字符问题是混元系列的老问题，半年以来改进甚微，但本次0711版本确实可见一些显著优化。较简单的#33洗牌分牌可以正确计算牌数，拿到元宝混元 Hunyuan 教程满分，#9单词缩写，在旧版0521版基础上得分率再次提高。但整体表现在同梯队模型中仍然偏下，尤其复杂问题下，其对字符的辨识能力直线下滑。
输出失控：T1有不小概率，在推理结束后的正式输出阶段，继续“打草稿”，输出冗长无效的思考信息。冗长到模型自己都意识到不能这样了，说出“哦，我的天，我是不是应该停止纠结，直接提交这个答案？ ”，然后提交一个错误答案。
指令遵循：指令问题也是混元系列的积弊，多个版本优化较小，0711也不例外，指令相关问题，无论遵循难度高低，T1都有概率混淆，无视指令。如#10水果热量，T1会提交热量达不到要求的答案，其推理过程认为虽然热量不够，但差不多也行。#30日记整理更是和旧版表现相近，看不到改进。受此影响，在考察代码推导的#40题中，T1也会出现搞错代码逻辑的现象。

赛博史官曰：
1月时，国内掀起了接入DeepSeek R1的热潮，腾讯混元凭借较早接入R1，短时大量用户从其他App，包括豆包迁移到元宝，而彼时的字节豆包App团队选择等待自家推理模型，抗住内外部压力不接R1。字节在一个季度后的4月，推理模型首秀就超过了R1，可谓自信坚定走自己的路。
而求稳的腾讯选择自己擅长的打法，先圈住用户，再徐图改进，上半年自家的混元模型一直在每月迭代，每次少量改进，在追赶6个月之后，也超过了初代R1。至此老牌御三家BAT的大模型在第二梯队顺利会师。
但混元团队的志向恐怕不会止步于此。

延伸阅读：

腾讯混元TurboS- & T1 0521 测评

目前所有评测文章在公众号：大模型观测员 同步更新。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/259171.html原文链接：https://javaforall.net

腾讯混元 T1 0711 测评

关于作者

全栈程序员-站长

相关推荐

基于vLLM的混元翻译服务部署｜HY-MT1.5-7B快速上手教程

Hunyuan-MT 7B保姆级教程：从部署到实战翻译全流程

元宝AI如何删除没用文章

腾讯元宝，重大更新

小爱音箱Pro接入豆包AI[项目代码]

腾讯元宝双模型发布：混元T1升级，DeepSeek V3代码能力提升