如果o3图片推理很吸引你，那你一定要看看豆包大模型的新品

豆包大模型教程

4 月 17 日，在 FORCE LINK AI 创新巡展·杭州站，火山引擎正式发布了豆包1.5·深度思考模型。

豆包1.5·深度思考模型一共有两个版本，分别是大语言模型 Doubao-1.5-thinking-pro 和多模态版本 Doubao-1.5-thinking-pro|m，值得注意的是，它的多模态是一种原生的多模态能力，将视觉理解和语言推理融入到了一个模型中。

在专业领域的推理任务比如数学、代码、科学等，Doubao-1.5-thinking-pro 都表现出色，基准测试达到或接近全球第一梯队水平；在非推理任务比如创意写作、人文知识阐述等，模型泛化能力也很强，适用的场景更加广泛和复杂。

以下是具体的跑分成绩：

在数学竞赛基准 AIME 2024 上获得了 86.7 分，与 o3-mini-high 的表现相当，并且显著优于 o1 和 DeepSeek R1；
在竞赛编程基准 Codeforces 上获得了 55.0 分，优于 DeepSeek R1；
在科学问答基准 GPQA 上获得了 77.3 分，接近 o3-mini-high 表现。

与此同时，多模态版本的视觉理解能力也很强大。视觉理解处理信息更高效，加上思维链推理的严谨有序，可以极大避免幻觉的影响，并使得视觉理解与知识的结合更加深入。为验证这一点，知危还对豆包1.5·深度思考模型的视觉理解能力特别进行了测评。

接下来，我们先介绍大语言模型版本的关键技术原理，再介绍多模态版本的视觉理解测评结果。

MoE 架构的豆包1.5·深度思考模型规模小，具有 20B 激活参数和 200B 总参数，推理速度更快，能够实现 20 毫秒极低延迟。

随着大模型的规模扩大，如今优化重点或者说基座大模型竞争点几乎卷到了较量 “ 一字之差 ” 的级别，豆包1.5·深度思考模型也确实打磨出了这等级别的细腻功力。

这种细腻性还体现在业务场景落地上，我们从豆包1.5·深度思考模型的实际测试效果就可以感受到。

在实际测试下，面对一个高考填报志愿的问题，豆包1.5·深度思考模型通过分析考生所在省份的招生流程、成绩计算方式、不同学校要求等信息，结合三位一体报考的特点，最终给出了三个梯队的报考结构，并提示考生以第二梯队院校为主力，搭配冲刺和保底选项，甚至以第二梯队为主给出了专业推荐和优势分析，可谓极致周全。

再给模型输入一份 32 页的 2024 财年英文公开财报，并让模型基于财报，分析全球不同区域的业绩表现差异，及背后与定价、产品组合、区域经济等方面的关联。可以看到模型能拆分理解用户的提问，解读英文报表，按全球各区域提炼回答问题的有效信息。模型对各区域业绩表现的驱动因素先做了初步总结，再进行更加深入的维度分析。比如一些区域的业绩增长与定价策略的贡献相关性高，而定价可能源于高通胀的影响。最后模型给出了详细的有效答案。

从这两个场景的测试可以看出豆包1.5·深度思考模型能够很好地理解用户的复杂需求，并在执行中严格遵循指令，其思考过程非常有序，能够逐级深入地分析问题，但最终答案又不跑偏，甚至能在用户未提及的方面，给予贴合实际需求的人性化的方案，展现了豆包1.5·深度思考模型在知识方面的硬实力，以及听话、严谨、有序、深入、用户导向等软实力的表现。

硬实力方面，ToB业务涉及专业领域，如法律、金融、医疗等，模型需要具备专业知识才能有效支持。豆包1.5·深度思考模型可以处理行业特定的问题，降低企业知识成本。软实力特质在ToB中尤为重要，因为企业项目落地链条长，客户需求多维度，还需遵守内部政策和法规。

介绍完豆包1.5·深度思考模型的技术原理和场景适用性，我们再实际考察一下视觉理解和深度思考如何相辅相成。

本次测评涉及基础层面的计数、定位、知识引入、多元素识别等能力维度，在更高阶层面，主要考察了在教育场景中的应用，比如生物、化学、地理等。

首先是基础层面的测评，我们测试一下豆包1.5·深度思考模型多模态版的计数能力。

输入下图并提问：图中有几个人？

豆包1.5·深度思考模型多模态版的输出结果是6个人，回答准确。在思维链中，它将每个人的具体特征都分析了出来，包括衣服、发型、肤色等，甚至识别出了谁是拍照的人。

上述测试已经有体现出多元素识别的能力了，再看看下方这个表情识别的例子。

输入下图并提问：总结图片内容。

在推理过程中，豆包1.5·深度思考模型多模态版能准确地将图像整体进行空间划分，强调关注“共同点和差异点”，比如一些紫色、蓝色、红色的对象有特别意义等。在生成结果中，基本上每一个表情豆包1.5·深度思考模型多模态版都解释的很到位，特别是最后一个表情（思考/欲言又止），没有和左边的混淆（困惑），就很细节了。