字节跳动发布豆包大模型1.6及多款AI产品，并大幅降低使用成本 AI早报 2025-06-12

字节跳动发布豆包大模型1.6及多款AI产品，并大幅降低使用成本
OpenAI为GPT-4.1系列模型开放DPO微调，并推迟开源模型发布
Meta 据报148亿美元投资Scale AI，并发布强化学习框架与世界模型
苹果承认Siri架构落后将彻底重建，并整合ChatGPT增强图像功能
谷歌发布C++库LiteRT-LM，用于高效运行Gemma-3N模型
Figma正式发布Dev Mode MCP服务器测试版，简化设计到代码流程
Krea AI发布首款图像生成模型Krea1，提供免费试用
Hugging Face推出AI表格应用AISheets
Mistral宣布启动Mistral Compute基础设施项目
Anthropic为Claude Code推出计划模式并更新网页应用
迪士尼与环球影业就版权侵权问题起诉AI公司Midjourney
特朗普政府新AI计划“AI.gov”在GitHub上被泄露
阿里开源预训练框架MaskSearch，提升模型主动搜索与多步推理能力
PartCrafter：从单张图像生成结构化3D模型的新研究

概要：字节跳动发布豆包大模型1.6及视频生成模型Seedance 1.0 pro，大幅降低使用成本

豆包大模型1.6系列包含三个模型：doubao-seed-1.6、doubao-seed-1.6-thinking和doubao-seed-1.6-flash。所有模型均支持多模态能力和高达256K的上下文长度。其中doubao-seed-1.6是国内首个支持256K上下文的综合思考模型；doubao-seed-1.6-thinking强化深度思考和复杂推理能力；doubao-seed-1.6-flash作为极速版本实现极低延迟。官方Benchmark显示新模型性能可与Gemini 2.5 Pro和R1-0528媲美，并在高考数学新一卷测试中取得全球最高分。

新模型引入”边想边搜”和”DeepResearch”功能。前者允许模型在独立思考时同步检索信息，后者可在5-30分钟生成详尽调研报告。模型还具备GUI操作能力，可自动执行筛选酒店、整理票据等任务。

火山引擎采用创新统一定价模式，在企业常用0-32K输入范围内，输入价格0.8元/百万tokens，输出8元/百万tokens，综合成本降低63%。全新视频生成模型Seedance 1.0 pro支持文生视频和图生视频，生成1080P高品质视频每5秒仅需3.67元。

字节跳动发布豆包大模型1.6及多款AI产品，并大幅降低使用成本 AI早报 2025-06-12

火山引擎同步发布两款语音大模型：豆包·语音播客模型可快速生成双人对话式播客；豆包·实时语音模型支持自然语言指令控制、随时打断和主动搭话。

开发者工具方面，AI IDE产品TRAE升级后支持代码重构、批量修改等复杂任务，月活超100万。MCP服务深度链接Agent开发体系与大模型工具生态，提供超200种服务选择，与TRAE、火山方舟、扣子等产品打通。

概要：OpenAI开放GPT-4.1系列模型DPO微调技术，开源权重模型发布推迟至夏末

OpenAI用户现可使用直接偏好优化（DPO）技术对GPT-4.1系列模型（含4.1、4.1-mini、4.1-nano）进行微调。DPO通过比较模型生成的不同回复进行优化，适用于风格、语调和创造力等主观性任务。

CEO Sam Altman宣布开源权豆包大模型教程重模型推迟发布，原定6月的模型预计延至夏末。延迟原因系研究团队取得”意料之外、非常了不起的突破”，需额外时间完善。

ChatGPT Plus用户使用o3模型（据信为GPT-4o）的消息频率限制从每周100条提升至200条。Web应用新增自定义GPTs模型选择器和”Wham Best of N”选项，后者允许代码生成任务选择1-8次尝试次数获取最佳结果。

https://platform.openai.com/docs/guides/direct-preference-optimization

概要：Meta拟148亿美元收购Scale AI 49%股份，同步发布LlamaRL框架与V-JEPA 2世界模型

据The Information报道，Meta计划以148亿美元收购数据标注公司Scale AI 49%股份。Scale AI CEO Alexandr Wang将领导Meta新成立的”超级智能”实验室，强化Llama 4发布后的AI竞赛优势。

Meta推出全新强化学习框架LlamaRL，基于PyTorch构建全异步分布式设计。测试显示对405B参数模型，强化学习步骤时间从635.8秒缩短至59.5秒，速度提升10.7倍。框架利用DDMA和NVIDIA NVLink技术实现高效权重同步。

同步发布开源世界模型V-JEPA 2，该12亿参数模型基于ViT架构，具备先进视觉理解和预测性能。能通过视频学习物理常识，在动态环境中适应并高效学习新技能。配套发布MVPBench、IntPhys 2和CausalVQA等物理推理基准测试。

发布参数分别为1B、3B和8B的Perception Language Models（PLM）视觉语言模型系列，相关代码、数据和论文已开源。

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

概要：苹果承认Siri架构落后，计划2026年推出V2架构，iOS 26整合ChatGPT图像生成功能

WWDC 2025上，苹果高管Craig Federighi和Greg Joswiak首次公开承认Siri架构落后，将彻底重建。当前V1架构被”基本放弃”，全新V2架构采用更深度的端到端设计，通过应用程序意图调用设备操作并利用个人知识语义索引。新功能推迟至2026年上线，WWDC展示的Siri升级仍基于旧架构。

Apple Intelligence战略定位为”用时即现”的任务助手，采用本地模型优先策略，必要时调用私有云或第三方模型（如OpenAI）处理复杂任务。

iOS 26、iPadOS 26和macOS 26 Tahoe系统整合ChatGPT图像生成能力，新增油画、水彩、吉卜力动漫等风格选项。用户需授权发送图像数据至ChatGPT服务器，生成速度较慢但内容限制更宽松。

概要：谷歌发布LiteRT-LM C++库，支持Gemma-3N 2B/4B模型跨平台运行

谷歌发布LiteRT-LM早期版本，这是一个C++库，旨在跨平台高效运行Gemma-3N系列模型。支持2B和4B参数模型，适用于桌面环境（Mac/Windows/Linux）及物联网设备。

https://github.com/google-ai-edge/LiteRT-LM https://huggingface.co/google/gemma-3n-E2B-it-litert-lm-preview

概要：Figma推出Dev Mode MCP服务器Beta版，实现设计数据实时传递AI编码工具

Figma正式发布Dev Mode MCP（Model Context Protocol）服务器Beta版，通过标准化协议将设计数据实时传递给AI编码工具。支持VS Code with Copilot、Cursor、Windsurf、Claude Code等工具，提取组件、变量、样式等结构化数据生成精准代码。

服务通过本地服务器运行，用户在桌面应用”偏好设置”中启用，仅限Dev或Full Seat许可用户。计划未来数月推出远程服务器功能并深化代码库整合。

https://www.figma.com/blog/introducing-figmas-dev-mode-mcp-server/

概要：Krea AI发布解决AI图像生成缺陷的Krea1模型，支持1.5K-4K输出并开放免费试用

Krea AI推出首款图像生成模型Krea1，解决传统AI图像生成中的纹理柔和、对比度过高、构图单调等问题。实现高度逼真纹理、清晰细节和多样化风格表达。

模型具备广泛艺术知识储备，支持写实到抽象创作需求。提供风格参考和定制化训练功能，用户上传样本即可生成特定审美图像。支持1.5K原生分辨率输出，增强功能可提升至4K高清。

开放免费测试版，用户无需注册或付费即可试用。

概要：Hugging Face发布AISheets应用，将电子表格与数千AI模型结合

Hugging Face推出AISheets应用，将电子表格与数千个AI模型结合。用户可在表格界面直接调用开源大语言模型完成数据构建、分析和自动化处理任务。

https://huggingface.co/aisheets

概要：Mistral AI启动欧洲AI基础设施项目Mistral Compute，保障全球AI创新前沿地位

Mistral AI宣布启动Mistral Compute战略计划，在欧洲建立前所未有的AI基础设施，确保全球国家、企业和研究实验室保持AI创新前沿地位。

概要：Anthropic为Claude Code新增计划模式，Pro/Max用户可审查代码实施计划

Anthropic为AI编程助手Claude Code推出”计划模式”（Plan mode），用户通过快捷键（Shift + Tab两次）激活，在实际代码更改前审查AI生成的实施计划。适合复杂代码变更，让开发者明确方案步骤，现已向Pro/Max订阅用户开放。

网页应用将新增删除项目和改进提示功能，目前处于隐藏状态。

概要：好莱坞巨头迪士尼与环球影业起诉Midjourney版权侵权，系首次针对AI公司的法律行动

迪士尼与环球影业对AI图像生成公司Midjourney提起版权侵权诉讼，这是首次好莱坞主要电影公司对AI公司采取法律行动。指控Midjourney可根据文本提示生成受版权保护角色形象（如星球大战角色）。此前Midjourney已面临多起视觉艺术家诉讼。

概要：据称特朗普政府
http://
AI.gov
计划泄露，包含聊天机器人、全能API和CONSOLE监测工具

据备份资料显示，美国总务管理局（GSA）开发的http://AI.gov网站包含三个主要部分：聊天机器人、”全能API”和CONSOLE工具。API连接OpenAI、谷歌、Anthropic等模型，CONSOLE监测各机构AI使用情况。计划通过Amazon Bedrock提供AI模型，与FedRAMP认证供应商合作。

阿里通义实验室开源MaskSearch预训练框架，核心为”检索增强掩码预测”（RAMP）机制，模拟”填空题”训练AI主动调用搜索引擎查找缺失内容并结合已有信息推理。

采用数据增强与策略优化算法（DAPO），结合格式奖励和回答奖励的强化学习机制。测试显示基于Qwen2.5-1.5B模型的MaskSearch在Bamboogle数据集性能提升11.78%，在HotpotQA等数据集表现优异。已完全开源，兼容Qwen、LLaMA等模型。

https://github.com/Alibaba-NLP/MaskSearch

概要：北大、字节跳动与CMU联合发布PartCrafter，实现单张图像端到端生成结构化3D模型

由北京大学、字节跳动和卡内基梅隆大学联合发布的PartCrafter，是首个从单张RGB图像直接生成包含多个语义部件的高精度结构化3D模型。采用统一生成架构无需预分割，核心创新包括组合式潜在空间和层次化注意力机制。

模型具备”透视”能力，即使部件被遮挡也能通过生成先验推断完整3D几何结构。团队构建包含13万个3D对象的大型数据集，项目代码、预训练模型和演示版本即将发布。

https://github.com/wgsxm/PartCrafter

作者@橘鸦Juya，如果AI早报对你有所帮助，欢迎点赞、关注、分享。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/271522.html原文链接：https://javaforall.net

字节跳动发布豆包大模型1.6及多款AI产品，并大幅降低使用成本 AI早报 2025-06-12

关于作者

Ai探索者网站注册用户

字节跳动发布豆包大模型1.6及多款AI产品，并大幅降低使用成本 AI早报 2025-06-12

关于作者

Ai探索者网站注册用户

相关推荐

踩到好萊塢版權紅線！字節跳動傳全面暫停 AI 影片生成工具「Seedance 2.0」全球發布計畫

每周一问大模型 ｜ 豆包为什么取消联网搜索按钮？

豆包智能体创建中如何优化模型推理性能？

同花顺

字节发布豆包Seed1.6三款模型，含深度思考、通用和极速版

字节AI“一盘棋”：豆包崛起，模型与产品协同加速商业化闭环

每周一问大模型｜豆包为什么取消联网搜索按钮？