每年高考,最热的话题不外乎这么几个,要么准考证丢了,要么没赶上时间,要么语文作文怎么写,或者数学题完全看不懂。
我看了下,今年的高考话题差不多也是这样。但和往年不同的是,AI今年也来凑高考热度了,比如有第三方让各家的AI大模型来做高考数学题。
作为腾讯的股东,我自然很关心腾讯自研的混元大模型的表现,结果是:还比较能打。
看看每日经济新闻的报道,他们选取了今年的全国新课标数学I卷作为考题,对DeepSeek-R1、腾讯混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评,以检验当今主流AI推理大模型的数学能力。
为了让所有参评大模型站在同一起跑线,他们在测评的时候。移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。
中间的过程我就不讲了。但在最终得分上,DeepSeek-R1与腾讯混元T1以零错误的表现,取得了117分的满分成绩,并列第一。
对于这个结果,很多人可能会惊讶,混元居然这么能打了?
其实,对于长期关注腾讯AI进展的人来说,这个结果一点都不让人意外,因为混元在数学能力这一块本身还是比较突出的。
像5月21日的时候,混元快思考模型混元Turbo S、深度思考模型混元T1双双迭代。在竞赛数学效果上,混元Turbo S大幅提升了39%,混元T1提升了8%。
不过,对于很多买了腾讯股票,却不怎么关注腾讯动态的人来说,或者很多压根没有买腾讯股票的人来说,可能会在印象里觉得混元很一般。
比如,我自己就经常在一些炒股群里面潜水。有的朋友看到这个结果后就说,混元不是一直都挺落后的吗?还能取得第一?还有的朋友会认为,腾讯在接入DeepSeek后,已经抛弃了自家的混元大模型了。
其实,这些朋友有这些刻板印象倒也很正常。因为在AI大模型刚刚冒头的时候,腾讯确实要比其他几家大厂晚了一些,当时混元的表现也比较一般。
但是,随着今年以来腾讯的一系列动作,混元大模型的表现早就已经翻篇了,只是很多人的观念还没有立即跟着实际情况转变过来而已。
有人会说,你凭啥说混元大模型上已经翻篇了?那咱们就用事实说话:
语言模型
混元Turbo S:采用混合Mamba-MoE架构(总参5600亿,激活56亿),通过自适应长短思维链技术动态切换推理模式,复杂问题响应深度提升显著。
深度思考模型混元T1 :在多项核心能力上均实现了提升。其中,竞赛数学能力提升8%,复杂任务Agent能力提升13%,已集成至腾讯元宝App。
多模态理解与生成
视觉推理(T1-Vision):支持多图输入与原生长思维链,理解速度提升50%,效果较级联方案提升5.3%。
端到端语音(混元Voice):响应延迟降至1.6秒(提速30%),拟人化增强,已在元宝App灰度上线。
3D生成(v2.5):首创稀疏3D原生架构,几何精度提升10倍,纹理达4K;文生3D在17个类目中15项第一,图生3D全部第一。
图像生成(2.0版):实现“毫秒级生图”,GenEval基准准确率超95%,主观评测“AI味”最低。
场景化应用创新
游戏领域:推出游戏视觉生成平台,覆盖技能特效、角色立绘、实时交互等五大子模型,美术设计效率提升数十倍。混元游戏视觉生成平台也正式上线,面向工业级游戏资产生成,让游戏美术设计效率提升数十倍。
3D场景生成 :即将推出可漫游3D场景模型,支持沉浸式交互、多样风格场景生成及360全景漫游体验,赋能游戏与具身智能。
有人又说了,说了这么一大堆云里雾里的,谁能看得懂?
那咱们就直接亮排名。在全球公认的权威大语言模型评测平台Chatbot Arena上,混元Turbo S排名已攀升至全球前八,国内仅次于DeepSeek。
这个排名,足以说明混元的实力了吧?
当然了,大模型的发展日新月异,竞争很激烈,测试排名更是你来我往。不是A大模型更新后排名第一,就是B大模型更新后排名上升至第一。
所以,短时间内的排名的意义并不是特别大。另外,以个别测试的分数高低来界定大模型能力,也会存在一定的误差。
但不管怎样,这个测试排名至少说明了,腾讯自家的混元大模型,并不是大家想象的那么弱。
我自己也跟腾讯的人聊了聊,听说内部做大模型的业务团队,今年没有没有一个人是能够正常按时下班的,都在加班,每天都在去做迭代。
所以,腾讯对自家的混元大模型有多拼可想而知。而从长远来看,最终决定大模型实力的,还是基底算力和场景应用,资金也是必不可少。
腾讯在未来,还是需要保持在大模型上的投入,才能让混元继续保持比较能打的状态。另外,大模型普遍存在的幻觉问题,也是混元需要是要解决的。
除了自研的混元大模型,腾讯在AI上的进展,就是全体产品的AI化了。不管是在C端还是B端产品,纷纷都接入了AI,进行AI化改造。
像智能工作台IMA在接入AI后,其功能表现和用户体验,一直都很不错。微信、、腾讯文档、浏览器、腾讯会议等这些核心产品,也都陆续上线了AI新功能。
前段时间,元宝入驻微信这个事比较引人注目。我一直觉得,微信才是AI助手最适合入住的地方。最近,微信里的元宝,还能直接解读视频号上的视频了,这个能力还是比较让我惊讶的。
至于浏览器,前段时间正式推出了Qbot,升级为AI浏览器。我自己也体验了下新版的浏览器,确实很简洁很好用。要知道,根据Quest Mobile在去年12月发布的报告,浏览器的月活数高达4.3亿,是用户数最多的浏览器产品。
另外在产业端,腾讯AI技术也通过API、SDK等形式开放AI、云计算、安全等核心技术,帮助千行百业通过AI提效,为企业智能化转型提供解决方案。
从以上信息可以看出,腾讯在AI上不元宝 混元 Hunyuan 教程仅不躺,还很赶。用一位朋友的话来说,这就叫”流水不争先,争的是滔滔不绝”。
前两天,任正非接受人民日报采访的时候,说人工智能也许是人类社会最后一次技术革命,可能要经历数十年、数百年的发展。
我本人是很认同任老的观点的。不过,搞AI这件事,就交给腾讯管理层和员工去肝吧。咱们作为股东,支持就好了。
最后,腾讯今年的分红已经到账了,大家准备怎么改善生活?
发布者:Ai探索者,转载请注明出处:https://javaforall.net/260434.html原文链接:https://javaforall.net
