
大家好,这里是K姐。
一个帮你追踪最新AI应用的女子。
前几天,月之暗面突然扔下重磅消息:Kimi K2 正式发布。总参数 1T,激活参数 32B,直接开源,还能免费商用。
参数一口气卷到万亿级,刷新了目前开源模型的记录。
在一堆权威基准里,K2 拿到了开源模型的最好成绩,尤其在编程、工具调用、数学推理这几个方向,表现得非常硬。

现在在Kimi官网默认使用的就是新模型 K2。

API 也同步上线,支持 128K 长上下文。定价不高,输入每百万 tokens 4 元,输出 16 元,差不多是 Claude 成本的五分之一。
这几天我也上手体验了一轮,测试了几个典型的应用场景,还拉上 Claude 4 Opus、DeepSeek R1 0528 、Grok 4 做了一轮横评。
不看榜单,不谈参数,直接用起来看效果。到底谁能用,谁好用,下面一项项说清楚。
- case 1 可视化页面
我先测试了一个标准化的通用任务——可视化数据看板。任务不复杂,但很能看出模型的几个关键能力:能不能读懂用户的设计意图,模块之间结构和风格能否统一,生成的代码能不能直接跑起来。
提示词:生成一个网页数据看板页面,包含以下模块:
销售趋势折线图(近30天)
地区分布饼图(不同省份)
用户活跃度热力图(日-小时分布)
顶部汇总指标(用户数、转化率、日均收入)
使用 Chart.js 或 Plotly,要求样式统一、卡片风格简洁现代。

Claude 4 Opus 任务完成了一半,样式上是没问题的,按照我的提示词来了,可惜好几个图表都是空白的。有模板意识,但实际内容缺位。

Grok 4 该有的内容其实也都有,但是这美术风格有点上个世纪的感觉,只能说能用。

DeepSeek R1 0528 整体的图表和页面的完成度不错。但是多出了一些我提示词中没有提及的交互选项,而且还是不能交互的选项,只做了个贴图。热力图布局错乱。

K2 整体风格还不错,结构清爽,配色看着很舒服。卡片和图表的制作都很精美。意料之外,K2画对了热力图的模型,不过也有一点小瑕疵——有一些数据超出了卡片范围。
以往做编程任务,即使排队、付费,很多人也会优先考虑国外的大模型,毕竟稳定、好用,早就是默认选项;
但这个case出现了少见的一幕——国产模型的表现,反而更稳、更贴合需求。有点意外。
- case 2 闹钟
这个需求其实挺常见的,很多人第一次用 AI 做项目,都是从“复刻番茄钟”开始。
一个小小的闹钟网页,其实能看出很多东西。有没有动效,设计有没有审美,按钮点下去有没有反应,代码写得稳不稳……它不是拼功能,而是真正考验模型“能不能把事做好”。
我这次换了种风格,也试着跑了一版。
提示词:请设计一个pop art风格的闹钟网页界面,包括: 当前时间显示(大字),添加闹钟功能、计时功能

https://www.zhihu.com/video/
https://www.zhihu.com/video/
https://www.zhihu.com/video/
https://www.zhihu.com/video/
- case 3 射击游戏3D版
这个任务考验模型能否综合运用 Three.js 搭建完整 3D 游戏场景,实现视角控制、交互射击、粒子特效和界面逻辑,生成可运行的网页原型。
提示词:请使用 Three.js 创建一个第一人称视角的简单 3D 空间射击游戏,玩法如下:
玩家在星空背景中自由视角移动鼠标点Grok 教程击发射激光,击中漂浮的小行星加分
加入击中粒子爆炸特效
显示计分器 + 时间倒计时 + 胜利提示
可用 BoxGeometry 伪造小行星,页面需能运行。



我们可以看到背景设计是星空的样子,比较有代入感。但一看小行星,全是灰色方块,没有准心,也无法射击。页面能看,内容纯摆设。

DeepSeek R1 0528 加上了一个游戏开始页面,射击功能也能用了,页面上小方块的3D效果还是不错的,但是视角无法控制,也没法玩。运行几秒后,页面就直接卡死,动也不动了。

K2 是唯一一个能玩的。星空背景、不同大小的小行星、准心、射击,功能基本到位。该有的 UI 也没漏,甚至还贴心加了玩法提示,不至于一打开不知道干嘛。这就不是“能写代码”这么简单了,更像是一个具备产品意识的模型输出。
- cese 4 中文写作
文案输出也是日常用的比较多的一个场景。这次,我直接让4个大模型同时写一篇小说,一起来看看,谁写的更动人。
提示词:请写一篇以孙悟空与林黛玉为主角的同人小说,融合古典气息与奇幻色彩,字数3000字以上。

Grok 4 写了约4200字,内容比较套路化,故事情节有点流水账的感觉,对情感起伏的描写很少,看起来没什么代入感。

Claude 4 Opus 写了3200字左右。章回体形式清晰,文章整体结构不错。语言水平一般。

DeepSeek R1 0528 直接就肝到了6800字,文笔很好,读起来有种看专业的长篇小说的感觉。背景铺垫、人物描写都非常到位。

Kimi K2 写了5100字。Kimi先整体规划了内容和情节,故事情节不算特别出彩,但文风还是很不错的。
测完这几项,我觉得差距还是有点明显的。
有的模型一出手就能用,有的还停留在“看上去差不多”。页面跑不起来、逻辑断层、结构混乱,这问题一测就知道。
巧的是,就在K2发布几小时后,Sam Altman就把原定本周开源的 GPT-4o-mini “内部再打磨一下”。
但看过 K2 的表现,再看这波临时踩刹车的操作,大家心里其实都明白——国产模型第一次真的逼近了“开源大战”的主场。
比拼还在继续,棋局已经变了。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/245105.html原文链接:https://javaforall.net
