4 月 17 日,在 FORCE LINK AI 创新巡展·杭州站,火山引擎正式发布了豆包1.5·深度思考模型。
豆包1.5·深度思考模型一共有两个版本,分别是大语言模型 Doubao-1.5-thinking-pro 和多模态版本 Doubao-1.5-thinking-pro|m,值得注意的是,它的多模态是一种原生的多模态能力,将视觉理解和语言推理融入到了一个模型中。
在专业领域的推理任务比如数学、代码、科学等,Doubao-1.5-thinking-pro 都表现出色,基准测试达到或接近全球第一梯队水平;在非推理任务比如创意写作、人文知识阐述等,模型泛化能力也很强,适用的场景更加广泛和复杂。
以下是具体的跑分成绩:
- 在数学竞赛基准 AIME 2024 上获得了 86.7 分,与 o3-mini-high 的表现相当,并且显著优于 o1 和 DeepSeek R1;
- 在竞赛编程基准 Codeforces 上获得了 55.0 分,优于 DeepSeek R1;
- 在科学问答基准 GPQA 上获得了 77.3 分,接近 o3-mini-high 表现。
与此同时,多模态版本的视觉理解能力也很强大。视觉理解处理信息更高效,加上思维链推理的严谨有序,可以极大避免幻觉的影响,并使得视觉理解与知识的结合更加深入。为验证这一点,知危还对豆包1.5·深度思考模型的视觉理解能力特别进行了测评。
接下来,我们先介绍大语言模型版本的关键技术原理,再介绍多模态版本的视觉理解测评结果。
MoE 架构的豆包1.5·深度思考模型规模小,具有 20B 激活参数和 200B 总参数,推理速度更快,能够实现 20 毫秒极低延迟。
随着大模型的规模扩大,如今优化重点或者说基座大模型竞争点几乎卷到了较量 “ 一字之差 ” 的级别,豆包1.5·深度思考模型也确实打磨出了这等级别的细腻功力。
这种细腻性还体现在业务场景落地上,我们从豆包1.5·深度思考模型的实际测试效果就可以感受到。
在实际测试下,面对一个高考填报志愿的问题,豆包1.5·深度思考模型通过分析考生所在省份的招生流程、成绩计算方式、不同学校要求等信息,结合三位一体报考的特点,最终给出了三个梯队的报考结构,并提示考生以第二梯队院校为主力,搭配冲刺和保底选项,甚至以第二梯队为主给出了专业推荐和优势分析,可谓极致周全。
再给模型输入一份 32 页的 2024 财年英文公开财报,并让模型基于财报,分析全球不同区域的业绩表现差异,及背后与定价、产品组合、区域经济等方面的关联。可以看到模型能拆分理解用户的提问,解读英文报表,按全球各区域提炼回答问题的有效信息。模型对各区域业绩表现的驱动因素先做了初步总结,再进行更加深入的维度分析。比如一些区域的业绩增长与定价策略的贡献相关性高,而定价可能源于高通胀的影响。最后模型给出了详细的有效答案。
从这两个场景的测试可以看出豆包1.5·深度思考模型能够很好地理解用户的复杂需求,并在执行中严格遵循指令,其思考过程非常有序,能够逐级深入地分析问题,但最终答案又不跑偏,甚至能在用户未提及的方面,给予贴合实际需求的人性化的方案,展现了豆包1.5·深度思考模型在知识方面的硬实力,以及听话、严谨、有序、深入、用户导向等软实力的表现。
硬实力方面,ToB业务涉及专业领域,如法律、金融、医疗等,模型需要具备专业知识才能有效支持。豆包1.5·深度思考模型可以处理行业特定的问题,降低企业知识成本。软实力特质在ToB中尤为重要,因为企业项目落地链条长,客户需求多维度,还需遵守内部政策和法规。
介绍完豆包1.5·深度思考模型的技术原理和场景适用性,我们再实际考察一下视觉理解和深度思考如何相辅相成。
本次测评涉及基础层面的计数、定位、知识引入、多元素识别等能力维度,在更高阶层面,主要考察了在教育场景中的应用,比如生物、化学、地理等。
首先是基础层面的测评,我们测试一下豆包1.5·深度思考模型多模态版的计数能力。
输入下图并提问:图中有几个人?
豆包1.5·深度思考模型多模态版的输出结果是6个人,回答准确。在思维链中,它将每个人的具体特征都分析了出来,包括衣服、发型、肤色等,甚至识别出了谁是拍照的人。
上述测试已经有体现出多元素识别的能力了,再看看下方这个表情识别的例子。
输入下图并提问:总结图片内容。
在推理过程中,豆包1.5·深度思考模型多模态版能准确地将图像整体进行空间划分,强调关注“共同点和差异点”,比如一些紫色、蓝色、红色的对象有特别意义等。在生成结果中,基本上每一个表情豆包1.5·深度思考模型多模态版都解释的很到位,特别是最后一个表情( 思考/欲言又止 ),没有和左边的混淆( 困惑 ),就很细节了。
我们再测试一下定位的能力,在下方放满包包的架子上,让豆包1.5·深度思考模型多模态版找到 “ 第一层有几个紫色的包?”
输入图像:
豆包1.5·深度思考模型多模态版不仅找到了纯紫色的包,还找到了一个部分紫色的拼接包,后者说实话由于不是很明显或者太接近黑色,知危一开始都以为是胡说,结果还真是对的。
然后是测试豆包1.5·深度思考模型多模态版的知识引入能力,让它通过查看图中的食材种类来帮我们解决人生难题 “ 今晚吃什么?”
输入图像:
豆包1.5·深度思考模型多模态版认出了所有的食材种类,然后推导出主菜可以是汉堡或红烧肉,但同时做两道菜可能太腻,因此豆包1.5·深度思考模型多模态版分析出有两种组合,一种是汉堡加香辣炒五花肉,另一种是红烧肉加蔬菜汉堡,都考虑到了解腻的要求,非常贴心。
其实,这个例子稍微变化一下,还能充分体现出视觉理解结合深度思考的优势。
我们先关闭视觉理解,只输入下面的提示词:
- 取圆形平面载体,经热处理后置于工作表面
- 覆盖液态催化剂于载体表面,确保均匀分布
- 安置经高温处理的圆柱体主体于中央位置
- 依序添加薄片状辅助元素、体积扩增层及色彩增强物
- 施加第二种液态黏合剂于构筑物顶部
- 放置次级圆形封闭元素,完成整体结构
豆包1.5·深度思考模型多模态版一开始将其理解为一种工业或手工场景。
但实际上,这些工序是汉堡制作过程的抽象。我们重启对话,把这些提示词和上面的食材图一起输入,豆包1.5·深度思考模型多模态版就认出来这是汉堡的制作过程。
可以看到,豆包1.5·深度思考模型多模态版在计数、定位、常识引入、多元素识别方面都有不错的表现,也展现了视觉理解和推理能力珠联璧合的奇效,这为更高阶的视觉推理打下基础。
下面,我们开始测试高阶视觉推理,先试试生物学方面的效果,直接让豆包1.5·深度思考模型多模态版总结下图内容。
输入图像:
豆包1.5·深度思考模型多模态版准确区分出这不是植物细胞而是动物细胞,将每一个细微结构都识别了出来,并用自己的知识解释了图中无法呈现的每一个部分的分子构成或功能。
豆包1.5·深度思考模型多模态版还进一步展现了纠错能力。其实,这张图是知危自己合成的,有少许 “ 陷阱 ”,它并没有呈现完整的结构,这时候再提问豆包1.5·深度思考模型多模态版 “ 还缺少了什么 ”,豆包1.5·深度思考模型多模态版立马反应过来,指出图中缺少了溶酶体、囊泡、过氧化物酶体等组成。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/267861.html原文链接:https://javaforall.net
