强化学习之父采访提到 LLM 是死路一条
目录
强化学习之父 Richard Sutton 最新采访:LLM 是“死路一条” - 知乎
看到标题时,我们只是好奇,紧接着开始快速拜读,第一段提到这位老爷子的核心观点,我们就被吸引住了,因为这和唯物唯心有点关联,在我们脑子里又和知识论扯上点联系。
他的核心观点是,LLMs 的架构从根本上缺乏从实际互动(on-the-job)中持续学习的能力。无论我们如何扩大其规模,它们本质上仍然是在模仿人类数据,而不是通过与世界直接互动来理解世界并实现目标。
核心观点
📋 文章基本信息
- 标题:强化学习之父 Richard Sutton 最新采访:LLM 是“死路一条”
- 来源:大模型观察站(知乎)
- 时间:2025-09-28
- 类型:观点类
🎯 核心观点(一句话概括)
Richard Sutton 认为当前的大语言模型(LLM)架构无法实现通用人工智能(AGI),未来需要一种基于持续互动和经验学习的新 AI 范式。
📌 关键论点
-
LLM 的核心缺陷
- 具体内容:LLM 本质上是模仿人类数据,缺乏与世界直接互动和理解世界的能力。
- 支撑论据:LLM 只能预测下一个词元,而无法预测行动对世界的真实影响,也没有基于“惊讶”机制的实时学习能力。
-
强化学习的重要性
- 具体内容:强化学习才是 AI 的基础,它通过与环境的互动实现目标,而 LLM 只是模仿人类行为。
- 支撑论据:智能的本质是实现目标,而 LLM 缺乏与外部世界相关的实质性目标,只是被动预测数据流。
-
经验时代的构想
- 具体内容:未来 AI 应基于“体验流”(感觉、行动、奖励)持续学习,而不是依赖大规模静态数据集。
- 支撑论据:这种新范式将通过时序差分学习解决稀疏奖励问题,智能体可以从所有感觉数据中学习,而不仅仅是奖励信号。
-
对泛化的质疑
- 具体内容:LLM 和现有强化学习系统都存在泛化能力不足的问题。
- 支撑论据:LLM 的“泛化”可能只是拟合了大量数据中的复杂模式,而不是真正的泛化能力。
-
对未来的展望
- 具体内容:人类向更高级智能形式的演替是不可避免的,未来 AI 将通过设计而非生物复制产生。
- 支撑论据:人类缺乏统一意志控制 AI 发展,而智能的原理终将被完全理解,超智能的出现是必然趋势。
🔗 逻辑脉络
- 问题/现象:当前 LLM 在 AI 领域占据主导地位,但其架构存在根本性缺陷。
- 原因:LLM 依赖模仿人类数据,缺乏与世界直接互动的能力,无法实现真正的目标驱动学习。
- 影响:LLM 无法实现 AGI,且其所谓的“泛化能力”存在局限性。
- 解决方案:未来需要一种基于经验的持续学习范式,智能体通过与环境的直接互动实时学习和进化。
💡 重要细节/亮点
- Sutton 认为 LLM 缺乏真正的世界模型,无法预测行动的后果。
- 强调婴儿通过试错学习,而非模仿,质疑监督学习在自然界中的合理性。
- 提出“经验时代”的概念,强调智能体应从所有感觉数据中学习,而不仅仅是奖励信号。
- 认为人类向更高级智能形式的演替是宇宙演化的必然阶段。
⚠️ 局限性/反思
- Sutton 的观点较为激进,对 LLM 的否定可能忽略了其在特定领域的实用性。
- 文章未详细讨论如何实现他所构想的“经验时代”AI 范式,缺乏具体的技术路径。
- 对未来 AI 发展的乐观态度可能忽视了潜在的技术风险和社会影响。
阅读时长建议:本总结可节约约 15 分钟阅读时间
句子摘要
我们也对一些耐人寻味的句子做了摘要:
- 而 LLMs 在他看来,则是在模仿人类,学习的是人类会说什么、会做什么,而不是自主地去探索和发现应该做什么
- 一个核心的争论点在于 LLMs 是否拥有一个真正的世界模型
- LLMs 缺乏这种与物理或交互世界直接关联的预测能力。它们是在模仿拥有世界模型的主体(人类),而不是自己构建一个世界模型。
- 学习的本质:源于经验,而非模仿
- LLM 的世界模型就是一个大而全的人类世界模型,他的知识来源于书本(人类间接提供),不来自于实践。
- 我们觉得现在 LLM 是会惊讶的,只是世界的反馈与他的预测不符时,他暂时不能实时地调整自己的模型。
- 动物不是通过被展示“正确行为范例”来学习的。它们学习的是“做了某件事,会产生什么后果”。无论是预测(一个事件跟随另一个事件)还是控制(通过试错来达成目标),学习都源于与世界的直接互动
- 语言和文化只是后来的附加物。因此,研究 AI 应该关注我们与动物共通的、更根本的智能原理,而不是人类独有的、特殊的能力
- 对人类来说困难的事情(如下棋、做数学题),对 AI 来说可能很容易;而对人类和动物来说轻而易举的事情(如感知、移动、持续适应环境),对 AI 来说却极其困难