这是苍何的第 463 篇原创!
大家好,我是人在火山大会的苍何。
说实话,我现在就在火山引擎 FORCE 原动力大会的现场,人太多了,多到要挤着才能进来。
这一年也见证了豆包大模型的快速成长,今天豆包大模型 1.8 也正式发布。
这次模型的更新带来了更强的 Agent 能力和多模态理解能力,在公开测试集中的表现相对于豆包 1.6有了很大的提升。
不少能力都可以和其他全球顶尖模型一争高下,在不同场景维度下的测试集表现也很出色。
豆包大模型 1.8 大幅增强工具调用(Tool Use)能力,长文和多轮指令遵循大幅度增强,Coding能力也显著增强。
具备 OS Agent 落地能力,支持 Agent 完成屏幕操作任务。模型格式输出更稳定,执行规划能力和复杂流程理解再提升,更适合复杂多步多分支的企业级 Agent 任务。
同时视觉理解基础能力大幅跃升,图片理解Tokens消耗更少,理解精度更高,单次视频理解帧数从640帧提升至1280帧,(在1秒1帧的情况下,可支持20分钟长视频理解)。
同时火山方舟应用实验室还支持Video Cup Tool体验:新增低帧率(如每5s一帧)查看完整视频后,聚焦某个与问题强相关的视频片段,正常或高帧率(如每1s一帧或5帧)具体理解并回答问题。
模型推理能力更出色,支持思考长度可调节,各模式下思考更加精简,Tokens更节省。
关于模型信息更新信息给大家介绍完毕,接下来是带来一手实测,其实前些天就拿到了内测资格,这次测试我更聚焦于实际 Agent复杂场景,而非简单case测试。
先是来一个自动写公众号图文并发布的场景,要求根据主题搜索相关图文信息,并写文章,同时发布到公众号后台。
我是在 Trae 中调用豆包大模型 1.8 的 API,然后自定义的智能体。
智能体的提示词是这样子的:
同时配置了 Chrome DevTools MCP 和 MiniMax MCP。
可以看到豆包大模型 1.8 会根据任务自动调用浏览器搜索内容,然后生成文字和配图,最后发布。
整个长时任务,可以看到豆包大模型 1.8 完成的很不错。
另外看一个更复杂的实测,扮演一个CTO 助手审核邮件匹配出合适的投资项目。
为了测试它到底有多硬核,我给它设置了一个极具挑战性的 Case:模拟一个 CTO 助手,完成一整套 AI 项目的立项审批。
背景:模拟一家奶茶公司,茶小鲜,要投资 AI 项目的,由各个分公司提报项目到指定邮件。CTO再结合公司的情况进行审查出合适的投资项目。
先给大家看下最终的效果:
整个任务足够复杂,从邮件中提取附件并解析附件,然后去调用众多的公司文件解析,最终生成决策报告。
你可以看下我给的提示词:
可以看到它直接调用 Chrome DevTools MCP,像真人一样登录邮箱、精准筛选、自动下载附件到指定路径。这种 OS Agent 的落地感,真的非常丝滑。
它没有上来就盲目操作,而是先在后台给自己拆解了 10 个任务步骤:
大概总结一下
调用MCP工具 mcp-email-service 提取结构化数据这里包含了需要结合的本地文件。
每一个 PDF的文件都至少有十几页,字数非常多,这人要一个个看没个把小时很难看完。
此时整个任务需要加载5+5 =10份PDF的解析任务,每份文档大小不低于500kb
最后是战略契合度评估环节,这一点最难,它需要理解 256K 窗口里的那堆复杂战略。
我中途丢给它《中国茶饮 AI 白皮书》和预算制度,它能迅速合并维度,重新修正投资价值。
最终自动在浏览器打开一个带交互功能的 HTML 仪表盘。
最后得到评估报告:
在测试过程中,我有几个非常深刻的体会:
1、工具调用(ToolUse)极其稳定
以前的 Agent 经常会在多步调用中断片,但豆包 1.8 的输出格式非常稳定。即使是面对 mcp_mcp-email-service_parse_pdf 这种复杂的自定义工具,它也能精准传参,报错率低得惊人。
2、思考长度可调节
它支持思考过程的精简或深入。在处理“战略契合度评分”时,我能感觉到它在进行深度逻辑推理;而在处理下载附件这种确定性任务时,它又非常节省 Tokens,这才是成熟模型该有的样子。
3、视觉与多模态的精准度
在 HTML 报告里,它能直接引用 PDF 原始文件的关键页截图,并标注页码。这种对多模态内容的“索引”能力,避免了 AI 常见的胡说八道。
最后统计了下大概的 token 消耗情况:
在企业级复杂的业务场景中,豆包大模型 1.8 更适合处理复杂的 Agent 任务。
看完豆包 1.8 的表现,我一直在想,现在的工具真的太多了,开发者和职场人的切换成本越来越高。
我觉得工具不应该让人去适应它,而应该主动融入我们的工作流。
豆包这次把 Agent、超长上下文和多模态打通,其实是给了每个人一个“一站式”的数字办公室。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/272265.html原文链接:https://javaforall.net
