斯坦福 2025 年 HAI 报告出炉，国产大模型仅讯飞星火入围 Mix-Eval 前十

2025 年 4 月 8 日，斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》（HAI 报告）正式出炉，在众多顶尖大模型的技术性能评测中，来自中国的讯飞星火 4.0（Spark 4.0）凭借其在“MixEval-Hard”测试中的出色表现，成为国内唯一入围前十的中文大模型，在所有国产大模型中排名第一，展示出强劲的技术实力与国际竞争力。

2025-04-08 19:27:08.890000

MixEval 是本次 HAI 报告引入的一项全新评测标准，专为评估大语言模型在复杂真实语言任务中的表现，尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的 MixEval-Hard 基准测试中，讯飞星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多个国际知名模型以及通义千问等国内模型，成为唯一入榜前十的中国大模型选手。

2025-04-08 19:34:46.124000

从报告来看，在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”，以 72.0 分遥遥领先，其次是 Anthropic 的 Claude 3.5 Sonnet（68.1 分）以及 Meta 推出的 LLaMA-3 405B-Instruct（66.2 分）。讯飞星火 4.0 紧随亚马逊旗下模型 Mistral Large2，以 0.4 的劣势排在第十名，在多个维度上展现出不俗的语言理解和推理能力。

MixEval-Hard 测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节，模拟真实场景下用户与模型的交互过程，是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标，被业界称为“大模型能力大考”。

作为科大讯飞旗下的重要战略产品，讯飞星火大模型自 2023 年发布以来不断迭代升级。其 4.0 版本于 2024 年 6 月发布的，在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025 年 3 月 3 日，讯飞星火发布深度推理模型 X1 在数学能力上大幅跃升，以 70B 参数规模便追平了 o1 和 DeepSeek-R1。尤其针对小初高中文测试集（来自科大讯飞星火教程 2023/2024 各学段考试真题 / 模拟题 / 竞赛题），星火 X1 拿下 SOTA。令人振奋的是，这一切全是在全国产算力平台上实现的。

值得注意的是，本次 HAI 报告也指出，虽然中美在 AI 能力发展上仍存在差距，但中国本土模型正在以“快马加鞭”的速度追赶国际巨头，中美顶级 AI 模型的性能差距已经缩小到了 0.3%（2023 年，这一数字还是 20%），国产大模型正在迈向全球舞台的中心。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/282125.html原文链接：https://javaforall.net

斯坦福 2025 年 HAI 报告出炉，国产大模型仅讯飞星火入围 Mix-Eval 前十

关于作者

Ai探索者网站注册用户

斯坦福 2025 年 HAI 报告出炉，国产大模型仅讯飞星火入围 Mix-Eval 前十

关于作者

Ai探索者网站注册用户

相关推荐

科大讯飞iFLYTEK T8星火版键盘京东促销价779元

2026年大模型关键词排名服务公司选哪家？五家实力企业推荐

2025年科大讯飞翻译机对比评测：双屏2.0、4.0星火版与其他品牌，哪款更适合你？

Ros结合科大讯飞linuxSDK进行离线语唤醒、命令识别

科大讯飞发布会启幕，四大平台十大方案领航智能交互

IDC 报告：科大讯飞央国企大模型业务超百度阿里，市场份额第一