阿里通义千问近日宣布推出Qwen3-30B-A3B模型的全新版本,命名为Qwen3-30B-A3B-Instruct-2507。这一非思考模式的最新模型在技术架构上实现重要突破,长文本理解能力显著提升至256K规模。
该模型采用创新的参数激活策略,仅需激活3B参数即可达到与Gemini 千问 Qwen 教程 2.5-Flash和GPT-4o等主流闭源模型相当的性能水平。据悉,新版本在多项核心基准测试中表现突出,数学推理测试中AIME25得分达到61.3,代码生成能力在LiveCodeBench v6测试中获得43.2分。
在通用能力层面,模型全面强化了指令遵循、逻辑推理、文本理解等多个维度的表现。研究生级物理和天文学问题处理方面,GPQA测试得分达到70.4,人类偏好对齐测试Arena-Hard v2得分为69,函数调用能力BFCL-v3测试得分65.1。
新模型在多语言长尾知识覆盖方面取得显著进展,特别是在主观和开放性任务处理上,与用户偏好的契合度明显增强。256K的长文本处理能力使模型能够处理更复杂的文档分析任务,为企业级应用提供更强支撑。
目前,该模型已在魔搭社区和HuggingFace平台全面开源,开发者可直接获取相关资源进行研发工作。这一技术突破延续了通义千问团队在架构创新方面的优势,在大幅降低计算成本的基础上实现了与千亿级闭源模型的性能对标。
阿里巴巴在人工智能领域的持续投入正逐步显现成效。自今年以来,通义千问系列模型在全球开源模型竞争中表现活跃,其开源策略为推动AI技术普及化发挥了积极作用。据悉,Qwen开源大模型的衍生模型数量已突破14万个,在全球开源模型生态中占据重要地位。
本文源自:金融界
作者:观察君
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/263181.html原文链接:https://javaforall.net
