07 Jan 2026 6 min read ai

Daily Productive Sharing 1368 - 2025: The year in LLMs

Photo by Kristaps Ungurs / Unsplash

One helpful tip per day:)

Simon Willison 梳理了去年一年 AI 编程工具的发展：

通过在多个环境中，用可自动验证的奖励来训练 LLM（例如数学/代码类谜题），模型会自发地产生在人类看来像是“推理”的策略——它们学会把问题拆解为中间计算步骤，也学会多种来回试探、逐步逼近答案的解题方法。
后来发现，真正解锁推理能力的是“驱动工具”：当具备推理能力的模型可以使用工具时，它们就能规划多步骤任务、执行这些步骤，并对执行结果继续进行推理，从而动态调整计划，更好地达成目标。
这种推理技巧意味着，模型可以从一个错误出发，穿越代码库的多个层级，逐步找到问题的根因。
如果将“智能体”定义为：能够通过多步工具调用来完成有用工作的 LLM 系统，那么智能体已经到来，而且事实证明它们极其有用。
我非常喜欢异步编码智能体这一类别；它们很好地解决了在个人电脑上运行任意代码所带来的安全挑战，而且可以同时触发多个任务——往往直接在手机上操作——几分钟后就能拿到相当不错的结果，这种体验非常有趣。
截至 12 月 2 日，Anthropic 表示 Claude Code 的年经常性收入（ARR）已达 10 亿美元！我完全没想到一个 CLI 工具能做到这种规模。
像 Claude Code（Web 版）和 Codex Cloud 这样的异步编码智能体的一大优势是：它们默认可以 YOLO 模式运行，因为不存在会被损坏的个人电脑。
遗憾的是，中国的实验室目前还没有公开其完整的训练数据或模型训练代码；但它们已经发布了大量详尽的研究论文，尤其在高效训练和推理方面，显著推动了技术前沿。
Nano Banana Pro 正迅速证明自己对任何需要制作演示文稿或其他视觉材料的工作都很有价值。
当你最大的成本是 GPU 时间时，面对一个拥有自有、深度优化且显然更便宜的硬件栈的竞争对手，确实令人望而生畏。
这里的核心理念是：“干脆忘了代码的存在”——氛围式编码（vibe coding）通过纯提示的方式，捕捉到了一种全新、有趣的软件原型构建方式，让软件“基本能用”。
MCP 的发布，恰好与模型在工具调用能力上变得足够好、足够可靠的时间点重合，以至于不少人误以为：模型要使用工具，必须先支持 MCP。
看起来，在任何场景下最强大的工具都是 Bash——如果你的智能体可以运行任意 shell 命令，那么凡是能在终端里敲命令完成的事情，它都能做到。
MCP 涉及 Web 服务器和复杂的 JSON 负载；而一个 Skill 则只是文件夹中的一个 Markdown 文件，必要时再配上一些可执行脚本。
MCP 在 12 月初被捐赠给新成立的 Agentic AI Foundation；而 Skill 也在 12 月 18 日被提升为一种**“开放格式”**。
直到 11 月之前，我都会说自己在手机上写的代码更多；但在笔记本电脑上写的代码显然更重要——经过完整审查、测试更充分，并且是面向生产环境的。
像 Claude Code 这样的系统，除了强大的模型之外，还需要一种可靠的推理模型，能够在不断扩展的上下文窗口中，稳定地执行数十甚至上百次工具调用。

如果你喜欢的话，不妨直接订阅这份电子报 ⬇️

Dr Selfie

You might also like...