豆包的模型还在持续迭代。这周在厦门的活动上,火山引擎又发布了几款新模型,豆包 1.6 系列也做了全面升级,整体上节奏还是一如既往地快。
今年火山引擎反复强调 AI 云原生这个概念,大意就是未来的应用形态会从传统的网站和 App,逐步转向 Agent。
以前做应用,主要靠工程师写逻辑、定规则;现在则是以模型为核心,工程师更多是在结合实际业务,把大模型的能力落到具体场景里。
这也意味着,模型本身的智能水平,以及配套的提示词、知识库等周边能力,变得无比重要。
所以,近一年,火山引擎一直在快速提升这部分的能力。包括这次的模型升级,我觉得火山的思路还是非常准,它不是单纯的拼参数,而是结合用户的实际场景,去思考模型应该朝着什么样的方向迭代。
挺有意思。比如他们有单独的图像编辑模型、同声传译模型,这都是贴着应用场景走的。
接下来,我分别介绍下豆包系列模型这次更新细节。
图像编辑这块,新发布的豆包图像编辑模型 3.0,对自然语言指令的理解更到位,调整出来的图片无论细节还是观感,都很自然。我觉得基于这个模型,做一个 AI 时代的图片编辑软件,已经足够了。
像换背景、调整光线这种常见需求,模型基本都能按思路把图片处理好,效果甚至已经超过绝大多数人用 PS 手动修改的水平。
小红书上经常有人求助 P 图的帖子。中午我写文章的时候,就刷到了一个。这事好办,我立马基于豆包的新模型生成了下,给对方回复了过去。
我在想,这么多人有 P 图的需求,是否结合着做一个类似的软件也有需求?这应该都是基于模型能力之上的增量机会。
我再举个例子:
除了图像编辑,这次豆包同声传译模型 2.0 也做了不少改进。最直观的一点就是把语音延迟从原来的 8-10 秒降到了 2-3 秒,基本可以实现接近实时的交流。
还有声音复刻这一块,现在不用提前采集音色,AI 能直接边听边还原说话人的音色和语调,翻译后生成的语音尽量接近本人说话的感觉,听上去不会太机械。
用在远程会议、跨国直播这类场景,交流会自然很多。这种细节,其实很多翻译产品还做不到。
这种效果之外,是不是存在新的机会?我认为我们可以停下来认真想想。
再说豆包大模型 1.6 系列。这次升级,发布了两个新版本,一个是主打极速的 Doubao-Seed-1.6-flash,另一个是强调综合能力的 Doubao-Seed-1.6-thinking。
Flash 版模型这次在推理速度上有了明显提升,TPOT(生成每个词的响应时间)基本能压在 10ms 以内。像智能硬件、移动端、智能巡检这些对时延要求比较高的场景,用下来响应速度几乎是实时的,对实际落地到延迟敏感的业务,算是解决了个大难题。
除了推理速度,Flash 版模型在成本控制上也做得比较实用。对于一些需要频繁调用、对延迟和价格都有要求的业务场景,比如批量文本处理、自动化巡检或者智能助手,整体的调用费用相对来说比较友好。
在实际落地过程中,这类低延迟、低成本的模型,确实让大模型用起来更有空间,也减少了企业在规模化应用时的顾虑。
另外,这次升级的还有 Doubao-Seed-1.6-thinking。其实现在各家大模型的方向都很接近,重点都是在优化数学、编程、推理这些底层能力。
这一次 thinking 版在这些基础能力上又做了强化,多模态的表现也更全面,像图片理解、图文混合推理这类任务,细节上比之前更扎实。
1.6-thinking 继续维持了 256K 的超长上下文,最大输出长度可到 16K tokens,在很多实际场景下,比如做代码生成、文档摘要、复杂问题推理时,能够处理的信息量比上一代更大。
综合能力上,比如 Coding、Math、逻辑推理都有明显提升。
火山引擎这次还发布了最新的全模态向量化模型 Seed1.6-Embedding 。以往 Embedding 模型主要支持文本和图文,这一版首次将视频纳入,支持文本、图片、视频的混合检索,实际应用场景更丰富,比如多媒体内容的统一检索和管理,现在可以用同一个模型来处理。
没记错的话,这是我见过的第一个支持混合模态检索的 Embedding 模型。
从评测成绩看,Seed1.6-Embedding 在 MTEB 中文文本榜单和 MMEBv2 多模态榜单上,图片和视频相关任务都做到了 SOTA 水平,尤其是在多模态检索和视频理解等方向表现稳健。
对于有多种内容管理需求的企业来说,Seed1.6-Embedding 能在实际检索和内容整合上带来更高的效率。
以上这些全新的模型,都已经可以在火山方舟上直接体验和调用。火山方舟应该是目前所有的我用过的所有的大模型开发平台中,开发者体验最好的产品。
可能还有人不知道火山方舟是干嘛的,简单讲,它是字节跳动旗下云平台火山引擎推出的产品,主要面向企业和开发者,提供了从模型训练、API 调用到应用落地的一整套能力。
现在大模型很火,所以几乎所有云平台都提供了类似的能力。但火山方舟,我感觉是在用做 C 端产品的思路做这类开发者相关的服务。我感觉他们不管是功能设计,还是交互体验,都更贴近开发者的实际需求。
举两个例子。比如,火山方舟的应用实验室提供了很多常见 AI 应用的开源代码,像 DeepSearch、实时对话式 AI、教师分身这些主流场景的源码都能直接找到。
对于想做 AI 应用的工程师或者公司来说,可以直接在这些开源项目的基础上二次开发,省去了从零开始搭建的繁琐。
还有一个我们工程师都挺喜欢的功能,叫 PromptPilot,是专门用来做提示词优化的。现在 AI 应用,Prompt 几乎是最难的一关,直接决定了模型输出的效果。但说实话,Prompt 这东西真没那么容易写好。
PromptPilot 把这个过程变成了产品化的工具,能让调试和修改变得直观一些,对很多没那么擅长写 Prompt 的人来说,确实能省不少力气。
也许有人认为提示词目前已经不重要。这观点其实不算准确,对于很多 C 端产品而言,确实提示词已经变得足够简单。
一款好用的产品,肯定会不断降低门槛,不至于让提示词拦住用户的热情。但对于工程师构建应用而言,提示词只会越来越重要。
因为提示词直接决定了模型能不能准确理解复杂的业务场景,能否输出符合要求的结果。从这个角度看,提示词就是连接场景和模型的桥梁。模型再强,只有用合适的提示词才能真正发挥出效果。
尤其在实际落地中,很多高价值的真实需求,其实并没有标准答案,背后的意图只能靠工程师和产品不断打磨和优化提示词,让模型明白背景信息,和预期的输出。
这也是 PromptPilot 工具的价值。它能让提示词的优化过程变得更直观、更可追踪。
我在厦门听了火山方舟负责人吴迪的分享,他说了两个观点让我特有共鸣:
1、再强的模型能力,如果无法和业务场景结合,不能解决实际问题,就只是“参数竞赛”。模型能力不能只看榜单和跑分,更要看在真实业务中的表现。推理速度、稳定性、调用成本,才是企业决策的重要因素。
2、随着各家模型能力逐渐收敛,参数再多也只是基础分,平台和工具链的完善程度,才是真正拉开差距的关键。所以火山方舟,不只是提供 API,还在做生态、工具、集成等各种配套服务。比如开源应用模板、Prompt 调优工具、场景一键部署、全流程监控等等。
豆包 大模型 教程一种新的应用范式正在出现。恰好今天是 8 月 1 日,我们或许可以停下来想想,新旧更替的时代中,我们的机会是什么,我们可以做些什么。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/272269.html原文链接:https://javaforall.net
