Kimi K2 Thinking：不止开源，SOTA之王

在今年年初的 DeepSeek 开源大模型给大家惊喜之后，似乎一切都变得平淡乏味了起来。

大家原本以为 2025 年的风口会继续在闭源巨头手里打转，结果一个意料之外的名字突然冒头了：

Kimi K2 Thinking

它既不开发布会，也不搞长篇科普，就这么悄无声息上线，然后在各种测试榜单上刷出了不少亮眼成绩。

不少研究者看到成绩单后，第一反应不是惊喜，而是惊讶：居然是开源模型？

以前开源和闭源的差距，很像学生成绩单上的两道分割线：

基础题过得去，但一到推理题就脑溢血；能写诗却做不对三角函数；能续写奇幻小说，但真实项目一上手就手忙脚乱。

现在，K2 Thinking 在人类最后的考试 HLE（允许使用工具）里干到了 44.9
在复杂搜索基准 BrowseComp 上干到 60.2。

在智能体工具使用 τ²-Bench Telecom 干到 93。

更要命的是，这些分数，已经压住 GPT-5 和 Claude Sonnet 4.5（Thinking）。

闭源阵营该怎么跟投资人解释这事？说自己是“发挥失常”吗？

这玩意的能力本质是：

不只会“想”，而且会“干活”，还能边干边想、边想边查，就好像给模型塞了一个离线版的勤奋小助手，它会自己去原网页验证资料，会在答案不够清晰时主动再搜索一轮，会为了排错写代码并跑测试日志。

你给它一个模糊的任务，它会自己先拆需求，再试错，再修正，飙几百轮工具调用也不吭声，不会像某些 AI 一样写两行代码就喊“我累了”。

（上下滑动查看完整对话）

架构方面，月之暗面也下了功夫：

支持 INT4 原生推理，这点估计是专门对国产卡的专门优化。

INT4 提升生成速度两倍，还能把省下来的硬件成本偷偷转化为“再想多几句”的算力，挺懂工程的。

当然，光有数据吹牛没意思，那必须来点真实任务。

为了验证它的 Agent 能力，我们换了几种不同类型的任务，尽量模拟开发者真实会遇到的情况，而不是单纯让它“秀肌肉”。

我们还试了面向真实产出的产品小模块：
让它设计一个小型权限系统的 API，并补上测试样例；
它没有只写接口，还顺带检查边界场景，各种可能的安全风险及应对措施，同时还补充错误返回逻辑等。

顺便插一句，创意写作、学术总结这些基础能力，它也顺带升了一级。

如果你给它一堆混乱的灵感片段，它能帮你整理成一篇读者能看完、编辑能过稿、你还能假装自己很厉害的文章，这对很多博主来说简直是续命药。

再说到实际应用层面其实更有意思：

OpenAI 卷通用能力、DeepSeek 卷开源生态、Cursor 卷工具体验

而月之暗面则清醒得像旁观者：

在 AI 编程这个赛道上，光有模型不够，光有工具也不够，最强组合应该是“模型+工具链+商业化体验”一体化。

所以他们才会推什么 KFC（Kimi For Coding）套餐、Kimi CLI（前段时间推出的），全家桶已经不是产品，而是“能帮你认真交付”的一个完整工作流。

还有一个得聊的是，是月之暗面这个公司在行业地位上的对比差：

它在国内算是“六小龙”之一，

但在全球范围只相当于 OpenAI 估值的 0.5%，是 Anthropic 的 2%。

就这样的体量，却把全球最难的两个方向——推理和智能体直接做出了 SOTA，不是国内 SOTA，也不是开源的 SOTA，而是全面 SOTA！

开源协议还是 MIT，最宽松的开源协议之一。

这条新闻如果放在欧美那边的 AI 圈子怕不是能吹半年。

现在的问题来了：

我们讨论开源追闭源，到底追的是什么？

是分数、参数、显卡堆出来的肌肉？

还是哪个模型先学会“自己去查资料、自己改代码、自己负责正确性”这种真正能释放生产力的能力？

如果答案是后者，

那闭源大厂可能真的要紧张了（这里再次点名一位“开源都是智商税的”的不知名人士）。

因为开源模型不仅追上来了，还开始不断挑战一众闭源模型的“看家本领”。

闭源模型的安全感，正在由国内这些开源的选手一锤子一锤子敲碎，不断崩塌。

当 Kimi K2 Thinking 站上 SOTA 的时候，我们不得不思考一个问题：到底是谁在追赶谁？

我是 CyberImmortal，关注我们，带你畅游AI世界！

更多游戏资讯请关注：电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com

Kimi K2 Thinking：不止开源，SOTA之王

相关资讯 更多

热点资讯

热门游戏

相关资讯更多