- 字节跳动发布豆包大模型1.6及多款AI产品,并大幅降低使用成本
- OpenAI为GPT-4.1系列模型开放DPO微调,并推迟开源模型发布
- Meta 据报148亿美元投资Scale AI,并发布强化学习框架与世界模型
- 苹果承认Siri架构落后将彻底重建,并整合ChatGPT增强图像功能
- 谷歌发布C++库LiteRT-LM,用于高效运行Gemma-3N模型
- Figma正式发布Dev Mode MCP服务器测试版,简化设计到代码流程
- Krea AI发布首款图像生成模型Krea1,提供免费试用
- Hugging Face推出AI表格应用AISheets
- Mistral宣布启动Mistral Compute基础设施项目
- Anthropic为Claude Code推出计划模式并更新网页应用
- 迪士尼与环球影业就版权侵权问题起诉AI公司Midjourney
- 特朗普政府新AI计划“AI.gov”在GitHub上被泄露
- 阿里开源预训练框架MaskSearch,提升模型主动搜索与多步推理能力
- PartCrafter:从单张图像生成结构化3D模型的新研究
概要:字节跳动发布豆包大模型1.6及视频生成模型Seedance 1.0 pro,大幅降低使用成本
豆包大模型1.6系列包含三个模型:doubao-seed-1.6、doubao-seed-1.6-thinking和doubao-seed-1.6-flash。所有模型均支持多模态能力和高达256K的上下文长度。其中doubao-seed-1.6是国内首个支持256K上下文的综合思考模型;doubao-seed-1.6-thinking强化深度思考和复杂推理能力;doubao-seed-1.6-flash作为极速版本实现极低延迟。官方Benchmark显示新模型性能可与Gemini 2.5 Pro和R1-0528媲美,并在高考数学新一卷测试中取得全球最高分。
新模型引入”边想边搜”和”DeepResearch”功能。前者允许模型在独立思考时同步检索信息,后者可在5-30分钟生成详尽调研报告。模型还具备GUI操作能力,可自动执行筛选酒店、整理票据等任务。
火山引擎采用创新统一定价模式,在企业常用0-32K输入范围内,输入价格0.8元/百万tokens,输出8元/百万tokens,综合成本降低63%。全新视频生成模型Seedance 1.0 pro支持文生视频和图生视频,生成1080P高品质视频每5秒仅需3.67元。

火山引擎同步发布两款语音大模型:豆包·语音播客模型可快速生成双人对话式播客;豆包·实时语音模型支持自然语言指令控制、随时打断和主动搭话。
开发者工具方面,AI IDE产品TRAE升级后支持代码重构、批量修改等复杂任务,月活超100万。MCP服务深度链接Agent开发体系与大模型工具生态,提供超200种服务选择,与TRAE、火山方舟、扣子等产品打通。
概要:OpenAI开放GPT-4.1系列模型DPO微调技术,开源权重模型发布推迟至夏末
OpenAI用户现可使用直接偏好优化(DPO)技术对GPT-4.1系列模型(含4.1、4.1-mini、4.1-nano)进行微调。DPO通过比较模型生成的不同回复进行优化,适用于风格、语调和创造力等主观性任务。
CEO Sam Altman宣布开源权豆包 大模型 教程重模型推迟发布,原定6月的模型预计延至夏末。延迟原因系研究团队取得”意料之外、非常了不起的突破”,需额外时间完善。
ChatGPT Plus用户使用o3模型(据信为GPT-4o)的消息频率限制从每周100条提升至200条。Web应用新增自定义GPTs模型选择器和”Wham Best of N”选项,后者允许代码生成任务选择1-8次尝试次数获取最佳结果。
https://platform.openai.com/docs/guides/direct-preference-optimization
概要:Meta拟148亿美元收购Scale AI 49%股份,同步发布LlamaRL框架与V-JEPA 2世界模型
据The Information报道,Meta计划以148亿美元收购数据标注公司Scale AI 49%股份。Scale AI CEO Alexandr Wang将领导Meta新成立的”超级智能”实验室,强化Llama 4发布后的AI竞赛优势。
Meta推出全新强化学习框架LlamaRL,基于PyTorch构建全异步分布式设计。测试显示对405B参数模型,强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。框架利用DDMA和NVIDIA NVLink技术实现高效权重同步。
同步发布开源世界模型V-JEPA 2,该12亿参数模型基于ViT架构,具备先进视觉理解和预测性能。能通过视频学习物理常识,在动态环境中适应并高效学习新技能。配套发布MVPBench、IntPhys 2和CausalVQA等物理推理基准测试。
发布参数分别为1B、3B和8B的Perception Language Models(PLM)视觉语言模型系列,相关代码、数据和论文已开源。
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
概要:苹果承认Siri架构落后,计划2026年推出V2架构,iOS 26整合ChatGPT图像生成功能
WWDC 2025上,苹果高管Craig Federighi和Greg Joswiak首次公开承认Siri架构落后,将彻底重建。当前V1架构被”基本放弃”,全新V2架构采用更深度的端到端设计,通过应用程序意图调用设备操作并利用个人知识语义索引。新功能推迟至2026年上线,WWDC展示的Siri升级仍基于旧架构。
Apple Intelligence战略定位为”用时即现”的任务助手,采用本地模型优先策略,必要时调用私有云或第三方模型(如OpenAI)处理复杂任务。
iOS 26、iPadOS 26和macOS 26 Tahoe系统整合ChatGPT图像生成能力,新增油画、水彩、吉卜力动漫等风格选项。用户需授权发送图像数据至ChatGPT服务器,生成速度较慢但内容限制更宽松。
概要:谷歌发布LiteRT-LM C++库,支持Gemma-3N 2B/4B模型跨平台运行
谷歌发布LiteRT-LM早期版本,这是一个C++库,旨在跨平台高效运行Gemma-3N系列模型。支持2B和4B参数模型,适用于桌面环境(Mac/Windows/Linux)及物联网设备。
https://github.com/google-ai-edge/LiteRT-LM https://huggingface.co/google/gemma-3n-E2B-it-litert-lm-preview
概要:Figma推出Dev Mode MCP服务器Beta版,实现设计数据实时传递AI编码工具
Figma正式发布Dev Mode MCP(Model Context Protocol)服务器Beta版,通过标准化协议将设计数据实时传递给AI编码工具。支持VS Code with Copilot、Cursor、Windsurf、Claude Code等工具,提取组件、变量、样式等结构化数据生成精准代码。
服务通过本地服务器运行,用户在桌面应用”偏好设置”中启用,仅限Dev或Full Seat许可用户。计划未来数月推出远程服务器功能并深化代码库整合。
https://www.figma.com/blog/introducing-figmas-dev-mode-mcp-server/
概要:Krea AI发布解决AI图像生成缺陷的Krea1模型,支持1.5K-4K输出并开放免费试用
Krea AI推出首款图像生成模型Krea1,解决传统AI图像生成中的纹理柔和、对比度过高、构图单调等问题。实现高度逼真纹理、清晰细节和多样化风格表达。
模型具备广泛艺术知识储备,支持写实到抽象创作需求。提供风格参考和定制化训练功能,用户上传样本即可生成特定审美图像。支持1.5K原生分辨率输出,增强功能可提升至4K高清。
开放免费测试版,用户无需注册或付费即可试用。
概要:Hugging Face发布AISheets应用,将电子表格与数千AI模型结合
Hugging Face推出AISheets应用,将电子表格与数千个AI模型结合。用户可在表格界面直接调用开源大语言模型完成数据构建、分析和自动化处理任务。
https://huggingface.co/aisheets
概要:Mistral AI启动欧洲AI基础设施项目Mistral Compute,保障全球AI创新前沿地位
Mistral AI宣布启动Mistral Compute战略计划,在欧洲建立前所未有的AI基础设施,确保全球国家、企业和研究实验室保持AI创新前沿地位。
概要:Anthropic为Claude Code新增计划模式,Pro/Max用户可审查代码实施计划
Anthropic为AI编程助手Claude Code推出”计划模式”(Plan mode),用户通过快捷键(Shift + Tab两次)激活,在实际代码更改前审查AI生成的实施计划。适合复杂代码变更,让开发者明确方案步骤,现已向Pro/Max订阅用户开放。
网页应用将新增删除项目和改进提示功能,目前处于隐藏状态。
概要:好莱坞巨头迪士尼与环球影业起诉Midjourney版权侵权,系首次针对AI公司的法律行动
迪士尼与环球影业对AI图像生成公司Midjourney提起版权侵权诉讼,这是首次好莱坞主要电影公司对AI公司采取法律行动。指控Midjourney可根据文本提示生成受版权保护角色形象(如星球大战角色)。此前Midjourney已面临多起视觉艺术家诉讼。
概要:据称特朗普政府
http://
AI.gov
计划泄露,包含聊天机器人、全能API和CONSOLE监测工具
据备份资料显示,美国总务管理局(GSA)开发的http://AI.gov网站包含三个主要部分:聊天机器人、”全能API”和CONSOLE工具。API连接OpenAI、谷歌、Anthropic等模型,CONSOLE监测各机构AI使用情况。计划通过Amazon Bedrock提供AI模型,与FedRAMP认证供应商合作。
阿里通义实验室开源MaskSearch预训练框架,核心为”检索增强掩码预测”(RAMP)机制,模拟”填空题”训练AI主动调用搜索引擎查找缺失内容并结合已有信息推理。
采用数据增强与策略优化算法(DAPO),结合格式奖励和回答奖励的强化学习机制。测试显示基于Qwen2.5-1.5B模型的MaskSearch在Bamboogle数据集性能提升11.78%,在HotpotQA等数据集表现优异。已完全开源,兼容Qwen、LLaMA等模型。
https://github.com/Alibaba-NLP/MaskSearch
概要:北大、字节跳动与CMU联合发布PartCrafter,实现单张图像端到端生成结构化3D模型
由北京大学、字节跳动和卡内基梅隆大学联合发布的PartCrafter,是首个从单张RGB图像直接生成包含多个语义部件的高精度结构化3D模型。采用统一生成架构无需预分割,核心创新包括组合式潜在空间和层次化注意力机制。
模型具备”透视”能力,即使部件被遮挡也能通过生成先验推断完整3D几何结构。团队构建包含13万个3D对象的大型数据集,项目代码、预训练模型和演示版本即将发布。
https://github.com/wgsxm/PartCrafter
作者@橘鸦Juya,如果AI早报对你有所帮助,欢迎点赞、关注、分享。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/271522.html原文链接:https://javaforall.net
