July 13, 2025

写在 Kimi K2 发布之后:再也不仅仅是 ChatBot

前两天我们忙活了大半年的 Kimi K2 终于发布了,在上线前熬了个大通宵之后饱饱睡了两天,今天终于有闲写一点心得。

叠甲:以下内容全部是我个人观点,不代表公司立场。

再叠甲:以下内容全部是我古法手作 (仅使用 Github Copilot 当高级输入法用)。

关于“写前端”

从 Claude 3.5 Sonnet 开始,AI 写前端到达了可以实用的程度,此后几乎所有新出的模型都会秀一下自己写前端的能力,Kimi K2 当然也不能免俗。 这里,我想 share 一下个人对此的思考。

一直以来各种文本 AI 都是默认输出 Markdown, 产品都是高级的 ChatBot,人们对一个 ChatBot 的期待无非就是能回答问题、写写文章、像人一样提供情绪价值。 有一次我在用户反馈中看到有用户要求 Kimi “把文章重新排版,要放进一页 A4 纸”,这个在纯文本模式显然是无法实现的,我还把这个case当作一种产品经理与程序员的笑话一笑了之。

在大约今年 3 月的时候,Kimi Researcher 立项开发,当时无论是 Open AI 还是 Gemini 的 Deep Research 最终交付物都是一份纯文字的研究报告, 我们就想能不能做得不一样一些,借助当时已经不错的前端编程能力,给用户最终输出一份更丰富多彩的交互式报告。这个 idea 的最终形态 在 Kimi Researcher 上线之后已经和公众见面了,收获了不少好评。

但当我看到这个 idea 之后,脑中浮现了完全不一样的东西:没有人规定文本 AI 必须输出 markdown,如果“前端编程”成为 AI 默认的交互方式, 产品形态会变成什么样?

也就是说,把人与AI的交互方式,从 chat-first 变成 artifact-first:你和 AI 交互的过程不是为了它直接输出一段内容,而是它理解用户的需求后 立刻开启一个小工程,交付一个前端应用出来,用户可以继续追问、修改、迭代,但这些都围绕着一份交付物进行。

眼尖的朋友可能已经发现,这不就是个 cursor / aider / openhands 么?没错,从实现方式来说这就是 AI 编程干的事情,但如果在产品上精妙设计一下, 把写代码的过程藏起来,对于不懂编程的用户,这就是 “我和 AI 说句话,它竟然直接给我做了个 PPT / 画了个流程图 / 写了个小游戏”, 这一次,AI 不仅能 “把文章重新排版放进 A4 纸” 里,还能给你变换颜色甚至加上动效,这是完全超越传统 ChatBot 的体验。

于是我趁着清明假期肝了一天,从 aider 抄了 workflow 和 prompt 做了个 demo 出来,交互仍然是 ChatBot 的形式, 但当用户问 “介绍一下小米 Su7” 时,普通的 chatbot 会给出一段文字简介, 我这个 demo 会直接输出一份图文并茂、可以交互的 PPT 一样的网页出来, 用户还可以继续提要求修改,什么“背景改成黑色”,“再补充介绍一下 Su7 Ultra” 之类的。

我拿着这个 demo 到产品部门 sell idea,大家都表示很有意思,但是活实在太多,下次一定,下次一定。现在 K2 已经发布,Kimi Researcher 也已上线,相信 kimi 产品 也会很快有一些令人惊奇的变化。

记得 2009 年,我大二的那一年,有个师兄说:“也许20年后的编译器,就是程序员说‘我要一个 firefox’,然后编译器哼哧哼哧算了2天,拿出一个 firefox 来。” 当时我们拿这个当笑话和幻想,现在看来,甚至不到20年。

关于 Tool Use & Agent

年初 MCP 开始流行,当时我们就想能不能让 Kimi 也通过 MCP 接入各种第三方工具。当时我们在 K1.5 研发过程中通过 RLVR (Reinforcement Learning with Verifiable Rewards) 取得了相当不错的效果,就想着复刻这套方法,搞它一堆真实的 MCP Server 直接接进 RL 环境中联合训练。

这条路很快撞墙,首先是部署麻烦,例如 Blender MCP 对于已经有 blender 的用户很容易,但在 RL 环境中装上 blender 就是一个负担;其次也是更致命的,不少第三方工具需要登录使用,你总不能为了训练 Notion MCP 使用而去注册一堆 Notion 账号吧?

但是我们换个思路,我的假设是:模型在预训练中已经知道工具该怎么用了,我们只需要把这个能力激发出来。这个假设的的基础很容易理解:预训练见过大量的代码数据,其中有大量的、用各种语言和表达方式的 API call, 如果把每个 API call 都当成一种工具,那么模型早就该会用了。另一个基础是,预训练模型本身就掌握了丰富的世界知识,比如你让他角色扮演一个 Linux Terminal,它完全能和你像模像样的交互一番, 那么显然对于 terminal tool 调用应当只需要少量数据就可以激发出来。

因此我们设计了一个比较精巧的 workflow,让模型自己合成海量的 Tool Spec 和使用场景,通过 multiagent 的方式合成了非常 diverse 的工具调用类数据,果然效果不错。

对于 Agent,我的理解就是,如果一个模型能做到这样,它就是个不错的 Agentic Model:

task = get_user_input()
history = [task, ]
while True:
    resp = model(history, toolset)
    history.append(resp)
    if not resp.tool_calls:
        break

    for tool_call in tool_calls:
        result = call_tool(tool_call)
        history.append(result)

当然这个流程还可以更高级一些,比如 toolset 可以让模型自己动态生成(参考 alita)。

在训练的视角,这样的数据也并不难合成,只要想办法把一段长长的任务改写成探索、思考、工具调用、环境反馈、错误重试、输出内容等不同形式交织轨迹,就不难激发出这样的能力。

我认为现阶段我们对模型 Agent 能力的开发还在早期,有不少数据在预训练阶段是缺失的(比如那些难以言语描述的经验/体验),下一代预训练模型仍然大有可为。

为什么开源

首先当然是为了赚个名声,如果 K2 只是一个闭源服务,现在一定没有这么多关注和讨论,搞不好还会像 Grok4 一样明明做得很好却要承担不少苛责。

其次是可以借助很多社区的力量完善技术生态,在我们开源不到24小时就看到有社区做出 K2 的 MLX 实现、4bit 量化等等,这些凭我们这点人力真的做不出来。

但更重要的是:开源意味着更高的技术标准,会倒逼我们做出更好的模型,与 AGI 的目标更一致

这一点不是很容易理解,不就是把 model weights 放出来吗,为什么会“倒逼模型进步”呢?

其实答案很简单,开源了就意味着第一方再也不能用各种 hack 的方式粉饰效果,必须拿出足够通用、任何第三方拿到同样的 weights 都要能很简单地复现出你的效果才行。

对于一个闭源的 ChatBot 服务,用户压根不知道背后是什么样的 workflow、有几个模型,我有听说过一些 rumor 说有的大厂的入口背后是几十个模型、数百种场景分类和数不清的workflow,还美其名曰这是“MoE模型”。 在“应用优先”或者“用户体验优先”的价值观下,这种做法非常自然,而且是性价比远远优于单一模型的选择,但这显然不是 AGI 该有的样子,对于 Kimi 这样的创业公司来说, 这种做法不但会让自己越来越平庸,极大阻碍技术进步,而且也不可能拼得过每个按钮都有个PM雕花的大厂们。

所以,当开源要求你不能走捷径的时候,反而更有利于做出更好的模型和产品。(如果有人用 Kimi K2 做出了比 Kimi 更有意思的应用,我一定会去 PUA 产品部门的。)

关于决心和一些可能引起争议的零散观点

去年 Kimi 大规模投流引起不少争议,乃至到现在还有很多 diss 的声音。

哈哈,我只是个小程序员,这个背后的决策逻辑咱也不知道,咱也不乱讲。

我只说一个客观的事情: 在年初我们停止投流之后, 国内不少应用商店搜索 kimi 甚至第一页都看不见, 在苹果 App Store 搜 kimi 会推荐豆包, 在某度搜 kimi 会推荐 “某度 DeepSeek-R1 满血版”。

即使在如此恶劣的互联网环境之下,Kimi 也没有恢复投流

年初 DeepSeek-R1 暴涨之后,很多人说 kimi 是不是不行了,你们是不是恨死 DeepSeek 了?恰恰相反,不少同事都认为 DeepSeek-R1 的爆火是个大好事, 它证明了硬实力就是最好的推广,只要模型做的好,就会获得市场认可;他证明了那条我们相信的路不仅能走通,而且是一条康庄大道。 唯一的遗憾就是:这条路不是我们走通的。

在年初的反思会上,我提出了一些相当激进的建议,没想到植麟后续的行动比我想的还要激进,比如不再更新 K1 系列模型,集中资源搞基础算法和 K2(还有更多不能说的按下不表)。

前一段时间各种 Agent 产品很火,我看到不少声音说 Kimi 不应该卷大模型,应该去做 Agent 产品,我想说:绝大多数 Agent 产品,离了 Claude 以后,什么都不是。Windsurf 遭 Claude 断供的事情更加证明了这一点。 2025 年,智能的上限仍然完全由模型决定,作为一家以 AGI 为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。

追求 AGI 是极其险峻的独木桥,容不得一丝分心和犹豫,你的追求也许不会成功,但犹豫一定会失败。 2024年6月智源大会上我听到开复老师脱口而出地说“我作为一个投资人我会关注AI应用的ROI”,我就知道他创立的那家公司活不长了。

最后

我知道 Kimi K2 还有数不清的缺点,现在我比任何时候都更想要 K3。

补充

我没有想到这篇文章引起很多关注(害怕),不得不承认我锐评一时爽,有些说法还是偏激了,我对整个行业都是充满尊敬的,创业不易,大家都是 AGI 的同路人。