
Andrej Karpathy
从我的时间线来看,人们对 AI 能力的理解差距正变得越来越大。 第一个问题我认为在于使用的时效性和层级。我觉得很多人在去年某个时候试过 ChatGPT 的免费版,就以此定型了他们对 AI 的看法。这一群体经常嘲笑模型的各种怪癖、幻觉等。没错,我也看到过 OpenAI 的高级语音模式(Advanced Voice Mode)在处理“我该开车还是走路去洗车房”这种简单问题时翻车的爆火视频。问题在于,这些免费且陈旧/已弃用的模型,并不能反映今年最新一代 SOTA 智能体模型的能力,尤其是 OpenAI Codex 和 Claude Code。 这就引出了第二个问题。即便人们每月支付 200 美元使用最先进的模型,很多能力在高度技术化的领域也是相对“尖峰化”的。常见的搜索、写作、建议等查询,并不是能力提升最显著、最剧烈的领域。部分原因在于强化学习的技术细节及其对可验证奖励的使用;但部分原因也是因为这些用例在公司的“爬山算法”优化中优先级不够高,因为它们带来的商业价值没那么大。真正的金矿在别处,焦点自然也随之而去。 所以这引出了第二类人,他们既 1) 付费并使用最前沿的智能体模型(OpenAI Codex / Claude Code),又 2) 在编程、数学和科研等技术领域进行专业化使用。这类人正经历着程度最高的“AI 心理震撼”,因为截至今年,这些领域的进步简直令人惊叹。当你给这些模型一个计算机终端时,你可以看着它们瞬间化解掉你通常认为需要几天甚至几周才能完成的编程难题。正是这第二类人,对 AI 的能力、进化斜率以及各种网络相关的潜在影响赋予了极高的关注权重。 简而言之,这两类人完全是在各说各话。现实情况是:OpenAI 那个免费的、感觉有点像被遗弃的(?)“高级语音模式”会在你 Instagram 的 Reels 视频里搞砸最愚蠢的问题;而与此同时,OpenAI 最高级的付费 Codex 模型可以连续运行 1 小时,有条不紊地重构整个代码库,或者发现并利用计算机系统的漏洞。这部分功能确实非常强大,并取得了戏剧性的进展,原因有二:1) 这些领域提供明确且可验证的奖励函数,意味着它们非常适合强化学习训练(例如,单元测试是否通过是明确的,而写作好坏则很难客观评判);2) 它们在 B2B 场景中价值更高,这意味着团队的大部分精力都集中在改进这些功能上。现状便是如此。



