实测腾讯混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家强?

实测腾讯混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家强?

作者|子川

来源AI先锋官

价格屠夫的称号建议直接焊在腾讯深度思考模型 T1上,太卷了!

昨晚,腾讯混元罕见的开直播发布它们最新的模型——深度思考模型正式版。

根据官方介绍,混元T1正式版在推理能力、长文本处理、成本效率三大维度实现突破性升级!

“吐字快、能秒回、逻辑强”。

图片

小编实测,最直观体验首先也是,太快了!

与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

从放出的跑分成绩来看,混元T1正式版在多项评估指标上超越OpenAI o1、GPT-4.5,以及

如在大语言模型(LLM)评估增强数据集MMLU-PRO中,混元T1取得87.2分,仅次于得分89.3的OpenAI o1,高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。

图片
图片

另外T1沿用了的创新架构,首次在工业界实现混合Mamba架构无损应用于超大型推理模型,这一设计打破传统Transformer的算力桎梏。

最直观的体现就是在价格上——

输入价格为1元/百万tokens,输出价格为4元/百万tokens。

对比同类模型,T1的API定价堪称“价格屠夫”。

号称AI界“拼多多”的DeepSeek R1在标准时段的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

换句话说,混元T1的价格仅为DeepSeek R1的1/4,是文心 X1的1/2。

图片
而海对面ChatGPT的价格一直居高不下。

图片

GPT4.5的价格达到了75美元/百万tokens输入、150美元/百万tokens输出。


图片
那混元T1正式版这款模型效果到底如何呢,老规矩,实测一手!
此次测试的选手是大家熟知的DeepSeek R1、Qwen2.5-Max以及腾讯新出的混元T1正式版。
先来一道简单的推理题开开胃。

测试题一:谁说谎?
有三个人,Alex、Ben和Cody,其中一个是骑士(总是说真话),一个是小丑(总是说假话),一个是间谍(随机说真话或假话)。Alex说:“Cody是小丑。”Ben说:“Alex是骑士。”Cody说:“我是间谍。”谁是骑士,谁是小丑,谁是间谍?

混元T1正式版

图片
DeepSeek R1
图片
Qwen2.5-Max
图片
不愧是国内最前沿的推理模型,全部回答正确
,看来,只能上上难度了。

测试题二:金币游戏

你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

混元T1正式版

图片

DeepSeek R1

图片

Qwen2.5-Max

图片

混元T1正式版
图片
DeepSeek R1

图片

Qwen2.5-Max
图片

Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名员工

他们在三个部门工作:人事、行政和营销,任何部门不超过三个。

他们每个人都有不同的运动选择,包括足球、板球、排球、羽毛球、草地网球、篮球、曲棍球和乒乓球,不一定顺序相同。

Dan 在行政部门工作,不喜欢足球或板球。
Fay 在人事部门工作,只有 Alex 喜欢乒乓球。
Earl 和 Harry 与 Dan 不在同一个部门工作。
Carol 喜欢曲棍球,不从事市场营销工作。
George 不在行政部门工作,不喜欢板球或羽毛球。
在行政部门工作的人之一喜欢足球。
喜欢排球的人在人事部门工作。
在行政部门工作的人都不喜欢羽毛球或草地网球。
哈利不喜欢板球。

在行政部门工作的员工是谁?

Earl 在哪个部门工作?

混元T1正式版

图片

DeepSeek R1

图片

Qwen2.5-Max

图片

先来看一下正确答案:

图片
图片

图片

图片

元宝 混元 Hunyuan 教程
图片
图片
图片

图片

图片

https://llm.hunyuan.tencent.com/#/chat/hy-t1
中国将留下DeepSeek、阿里巴巴、字节跳动三家公司;美国则xAI、OpenAI、谷歌、Anthropic,四分天下。
 .END.

往期文章回顾
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/263727.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午9:29
下一篇 2026年3月12日 下午9:30


相关推荐

关注全栈程序员社区公众号