文心一言4.5 turbo & X1 turbo 测评

短的结论：革命尚未成功，百度仍需努力
基本信息：

4.5 turbo

成本：3.2每百万
速度：约53字每秒
平均长度：约5500字
平均耗时：101秒

X1 turbo

成本：4块每百万
速度：约58字每秒
平均长度：约13700字
平均耗时：241秒

*表格为了突出对比关系，有一定裁剪，不是完整排序。
测试方式：参见https://zhuanlan.zhihu.com/p/32
*这次测试基于5月题目，已经增加#36题，所以所有模型的分数相比4月有变动。

在3月16日，文心4.5发布时，首轮测试成绩并不理想，参见https://zhuanlan.zhihu.com/p/32，其主要问题是较多幻觉问题，计算能力低下，上下文过短，疑似迫于发布日压力赶工的半成品。而本次turbo升级，则在许多问题上有大幅改善。

下面重点分析turbo相比原版各自提升和不足。
优势：

4.5turbo在规则明确的计算问题上改善明显。如#21线段交点，#22连续计算，计算思路明确，解题过程规整，正确率大幅提升，推理风格更接近新版X1 turbo。而旧版4.5和x1在数学计算上的思路较为凌乱，过程也潦草。可见百度在数学训练方面确实有新思路或者换了新的对齐。相比之下，x1turbo的数学提升就主要在于思路过程，正确率与旧版区别不大。
4.5turbo和x1turbo在程序方面有一定进步，从结果来看，4.5turbo表现堪用。输出稳定性也比旧版更好。但其有不小概率会使用英文作答，且大概率程序的注释全部用英文。使用角度来看无伤大雅，但可推知百度在提升编程能力的思路。
x1turbo在人类直觉问题上有小突破，从旧版毫无头绪，盲目解答，进化到偶尔有一些正确思路，但思考深度仍不足。如#23解密问题，先前头部模型Gemini 2.5/o3/o4等3pass可稳定找到正确思路，而x1turbo只在一次测试中偶然找到思路并正确解出。另一次测试找到了思路，但惰于求解。从推理过程来看，x1turbo清楚自己的“猜测”成分过高，无法证实，因此作答小心谨慎。

劣势：

指令遵循问题上，4.5turbo表现不容乐观，许多badcase上承旧版。如#30日记整理问题，在多个条件约束里，4.5turbo多次输出都随机遵循其中部分约束。而难兄难弟的x1turbo有时会因为幻觉，将条件的应用范围搞错。#30本身不难，主要考察多个条件下模型如何遵循，遵循哪些。文心turbo系列当前表现泛化来看，在类似信息提取，资料整理等应用场景恐使用者多需费心。
4.5turbo在字符相关问题上没有改善，典型如#9单词缩写，错误与旧版如出一辙。
4.5turbo和x1turbo都存在大量死循环和中途切换到英文推理的现象。其中4.5turbo死循环率在10%，x1turbo略低，在9%。二者异常率都显著高于初版。疑似是过于激进的成本优化导致。
x1turbo在高难度问题上，有不小概率响应超时（大于600秒）。而旧版在同样问题上表现为抓住一个简单但错误的思路进行推理。

赛博史官曰：
3月时，百度宣称4.5达到4o水平，当时实测离1月的4o确实较为接近，而4o在3月末更新后差距再次拉大。目前4.5turbo经过发力再次实现接近，而4o也进行了新一轮更新（目前还未测试），可以预见差距会扩大，可谓是“一代模型有一代模型的使文心一言 ERNIE Bot 教程命”。
尽管x1 turbo本次杀进推理模型第二梯队，但其稳定性显著劣于同档位模型。在用户缺乏重试耐心的前提下，未必会认为x1 turbo足够强大。
此外百度重点宣传的x1 turbo在写作方面的提升，虽然未直接测试写作能力。但从先前经验写作能力正比于推理能力来看，预计写作水平确实会有提升。但考虑其幻觉率偏高，写作输出的直接可用性存疑。
百度诸君请继续努力。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/269550.html原文链接：https://javaforall.net

文心一言4.5 turbo & X1 turbo 测评

关于作者

Ai探索者网站注册用户

文心一言4.5 turbo & X1 turbo 测评

关于作者

Ai探索者网站注册用户

相关推荐

零基础用AI—全免费的百度文心一言使用指南（2025最新版）

文心X1.1升级评测[项目代码]

文心X1 Turbo获信通院“4+级”最高评级

基于文心一言【ERNIE Bot SDK】的文本纠错实践与优化

如何用AI快速诊断电脑故障 AI系统错误自动修复工具【教程】

文心一言 ​

文心一言