具身AI的真正挑战：超越LLM的下一场AI革命

Yann LeCun 并不认可当前的 LLM 是通过 AGI 的正确路线，对当前的机器人表现也持悲观态度，本文来源于最近他的一个访谈的整理，观点可以作为一个重要的参考。
原视频地址：https://www.youtube.com/watch?v=pJyoqapCRZE

引言：具身AI为何重要？

具身AI（Embodied AI），即能够在物理世界中感知、理解、推理、规划并行动的人工智能，正在成为AI领域最令人兴奋的前沿方向。从自动驾驶汽车到人形机器人，从工业控制到家用助手，具身AI的应用场景无比广阔。然而，尽管投资热潮涌动、演示视频层出不穷，这个领域隐藏着一个产业界不愿公开承认的秘密。

一、机器人行业的"皇帝新衣"

那些炫酷的机器人视频？全是预计算的。

无数公司在展示人形机器人打功夫、翻跟头的视频，但Yann LeCun直言不讳地指出：这些全部是预先计算好的动作，没有任何一家公司——绝对没有任何一家——知道如何让这些机器人聪明到真正有实用价值。

这是机器人产业的一个公开的秘密。当前的做法是：

用手写的动力学模型预先规划动作
通过强化学习做少量微调
只能在极其狭窄的任务上训练
需要收集海量数据
成本极高，泛化能力极差

一个残酷的对比： 17岁的青少年只需10到20小时的练习就能学会开车，而我们拥有数百万小时的驾驶数据，却仍然无法通过模仿学习训练出可靠的驾驶系统。连家猫的常识水平，现有机器人都望尘莫及。

二、为什么语言是"简单"的？

LLM之所以成功，恰恰是因为语言是简单的。

这个判断乍看违反直觉，但逻辑清晰：语言天然处于语义层面。一个token就近似一个语义概念——当我们说"汽车"时，LLM直接在这个抽象概念上运作，不需要处理真实汽车的颜色、光影、材质、运动轨迹等无穷细节。

而真实世界完全不同。物理世界的数据是高维的、连续的、充满噪声的——视频、传感器信号、力反馈……这些信号中包含了海量无法预测的信息。对语言成功的方法，对物理世界根本不起作用。

这就是为什么我们有能通过律师资格考试、能写代码、能解方程的AI，却没有能清理餐桌和装洗碗机的机器人。

三、VLM和VLA：有用但有限

当前业界兴奋的VLM（视觉语言模型）和VLA（视觉语言动作模型）是什么？

VLM：将视觉表示与语言token混合，利用LLM的架构处理
VLA：VLM的变体，输出是动作序列

LeCun的评判是尖锐的：VLA只在动作遵循固定脚本时才能工作。 它本质上是用数据驱动的方式替代了传统编程来自动化重复性任务——有用，但极其脆弱，只适用于狭窄的应用场景。

他将此类比为1980年代的专家系统。当年"知识工程师"是最热门的职业——坐在人类专家旁边，将知识翻译成规则和事实，然后用推理引擎替代专家。结果呢？因为系统太脆弱、知识迁移成本太高，这条路基本失败了。

VLA会走同样的路。 有少量实用场景，但绝不是通往通用智能的道路。

四、世界模型：AI的核心缺失

真正的智能需要什么？需要世界模型。

世界模型的定义很简单：给定当前世界状态和一个想象中的行动，能否预测行动后世界会变成什么样？人类和动物时刻都在做这件事：

17岁青少年知道在悬崖边打方向盘的后果，不需要真的开下悬崖
10岁孩子第一次就能清理餐桌和装洗碗机
第一次滑雪的人虽然笨拙，但不会做出违反物理规律的动作

这就是为什么人类能"零样本"完成新任务——我们拥有世界模型，能在头脑中模拟行动的后果。

而当前的AI系统——无论是LLM、VLM还是VLA——都没有这种能力。

五、为什么不能在像素级别预测？

一个关键洞察：世界模型不能在像素级别工作，必须在抽象表示空间中运作。

原因很直观：如果我拍摄这个房间的视频，旋转摄像头，然后要求系统预测接下来的画面——系统可以预测"可能有一扇门"，但绝不可能预测出房间里每个人的长相、衣服的纹理等细节。这些细节包含的信息量是无限的。

训练生成式模型在像素级别做预测会怎样？

最好的情况是产生所有可能未来的"平均值"——一张模糊无用的图
用扩散模型可以绕过这个问题，但预测器会出现模式坍缩
能生成好看的视频，但不理解底层动力学

LeCun花了15年尝试从视频中做自监督学习，前10年都在用生成式模型——结论是对自然视频根本行不通。

大量实证表明： 在图像表示学习中，联合嵌入预测架构（JEPA）全面碾压生成式方法（如MAE）。DINO等自监督学习方法甚至已经超越了有大量标注数据的监督学习方法——这是最近一年才发生的事。

六、JEPA：下一代AI架构

JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构） 是LeCun力推的新范式：

学习抽象表示：不在像素空间预测，而是学习输入信号的抽象表示
在抽象空间中预测：预测只包含可预测的信息，自动忽略噪声和不可预测的细节
可以条件化于动作：加入动作输入就成为世界模型

具体做法是：取一段视频，通过遮蔽破坏一部分，将完整视频和破坏后的视频分别送入两个编码器，训练预测器从被破坏的表示预测完整的表示。整个系统端到端训练。

V-JEPA 2 已经在等效100年的视频数据上训练完成。这听起来很多，但实际上只是YouTube一天的上传量。关键数据：视频数据量约10^15到10^16字节，是最大LLM训练文本数据（约10^14字节）的100倍。

这就是为什么我们永远不可能仅通过文本训练达到人类水平的智能。我们需要真实世界的数据。

七、层级化规划：智能的核心挑战

人类如何规划从纽约到巴黎的旅行？

不可能用毫秒级的肌肉控制来规划整个旅程。我们在非常抽象的层面规划：

最高层：去机场，坐飞机（两步计划）
中间层：下楼，叫出租车
最低层：站起来，走到门口，开门

每一层的世界模型不同：

低层模型：短期预测，高细节，低级动作（肌肉控制）
高层模型：长期预测，高抽象，高级动作（叫出租车去机场）

关键原则：抽象层级越高，预测的时间跨度越长，需要忽略的细节越多。

就像科学中的抽象层级：从量子场论到粒子物理到化学到生物到心理学到经济学——描述同一个房间里发生的事情，正确的层级是心理学和社会科学，而不是粒子物理。

这种层级化世界模型和层级化规划在AI中是一个完全未解决的问题。LeCun表示他的团队正在研究多层级的JEPA架构。

八、从视频到机器人：两阶段训练

如何将视频学到的世界知识迁移到具体的机器人？

第一阶段：通用预训练（与具身无关）

在海量自然视频上训练V-JEPA
系统学会物理现实的抽象表示和预测能力
不涉及任何特定机器人或任务

第二阶段：具身微调（少量数据）

固定编码器，微调预测器
加入动作作为输入：状态 + 动作 → 下一状态
需要三个子模型：机器人自身的模型、环境的模型、交互的模型
数据可以通过仿真获得（但仿真的是动力学，不是具体任务）
所需数据量远小于预训练
得到的模型是通用的，可用于任何任务

实验证明：这种方法已经能用于规划机器人拿杯子、倒水等操作。

九、常识的曙光：像测试婴儿一样测试AI

V-JEPA是否真的学到了常识？

测试方法借鉴了发展心理学测试婴儿的方式：给婴儿展示违反物理规律的场景（如物体悬浮在空中），观察其反应。6个月大的婴儿无动于衷，10个月大的婴儿会惊讶——因为他们已经建立了重力的世界模型。

同样的测试应用于V-JEPA：展示一段球在空中停住、变成方块或消失的视频，模型的预测误差飙升。 系统"知道"这是不可能的。

这是我第一次看到任何模型展现出某种水平的常识。

十、自监督学习的"蛋糕理论"

LeCun十年前提出的著名"蛋糕"比喻至今有效：

🍰 蛋糕主体（自监督学习）：观察世界运转，学习表示和世界模型。不需要专家，不需要他人指导，只需观察世界。大多数动物都是这样学习的——章鱼从不认识父母，却在几个月内变得非常聪明。
🍓 薄薄的一层（监督/模仿学习）：模仿专家或人类的行为。大多数动物甚至跳过了这一阶段。
🍒 樱桃（强化学习）：微调，极其低效。用强化学习从零训练自动驾驶？汽车得在悬崖边掉下去几千次才能学会那是个坏主意——然后换一个悬崖又得重来。

而且——蛋糕主体是与具身无关的。 同一个世界模型可以适配不同的机器人。

十一、硬件瓶颈：为什么20瓦的大脑碾压千瓦级GPU

人脑消耗约20瓦功率，为什么计算机实现同样功能需要千万倍的能量？

核心问题：硬件复用（Hardware Multiplexing）

在大脑中，每个突触、每个神经元都有对应的物理实体——"权重就在原地"。计算不需要大量搬运数据。

在计算机中，同一块硅片要复用来计算多个神经元和突触的输出。这意味着必须不断从内存中搬运数据到计算单元再写回——几乎所有能量都消耗在数据搬运上。

GPU通过层次化内存减少了部分开销，但根本问题没有解决。要真正匹配大脑的效率，需要：

非易失性模拟存储技术：纳米级别的单个模拟记忆单元
大规模并行：不需要很快（人脑只运行在约10Hz），但需要极度并行
可能的技术路线：自旋电子学、碳纳米管、光学器件……但目前都不存在
在线学习能力：由于模拟器件的个体差异，系统必须能在线适应自身硬件特性——就像生物大脑一样"不可复制、独一无二、终有一死"

每一个实时视觉系统——包括所有汽车的自动紧急制动系统——都使用卷积神经网络而非Transformer。 因为只有卷积网络能满足实时性要求。

十二、在线适应：不是强化学习

一个重要的概念澄清当你拿起一个杯子发现它比预想的重得多时，你的世界模型会在毫秒内自动调整——这个过程可能发生在小脑中（人脑中大部分神经元其实在小脑，约5000万个，而皮层只有1600万个）。

这不是强化学习，而是自监督学习。 LeCun强调这个区别至关重要：

强化学习：有任务目标，有价值函数，有奖励信号
自监督在线适应：观察世界，发现预测错误，等待观察实际发生了什么，调整预测器——没有任务，没有奖励，只有预测误差

这种适应是通用的、与任务无关的。当我们观察到违反内部世界模型的事件时，我们被本能地编程为对其高度关注——因为它可能意味着世界模型不准确需要更新，也可能意味着一只老虎正在向我们扑来。

十三、硅谷的集体盲区

LeCun对当前AI产业的批评毫不留情：

整个AI产业完全被LLM"洗脑"了。硅谷所有人都在挖同一条战壕——互相挖角工程师，谁都不敢做不同的事情，因为一旦偏离方向就会落后于竞争对手。

这正是他离开Meta的原因。Meta也加入了这场"LLM军备竞赛"，这对公司可能是正确的战略决策，但不是他感兴趣的方向。

他将这种现象与历史对比：就像80年代所有人都押注专家系统，2010年代中期所有人都押注强化学习一样——过度集中在单一技术路线上，最终会发现这条路的天花板比想象中低得多。

十四、卷积网络并未死去

一个被忽视的事实：在学术论文中，Vision Transformer（ViT）占据主导；在实际部署中，卷积网络无处不在。

LeCun引用了NYU同事Saining Xie的工作（ConvNeXt）：如果把Transformer中的技巧移植到卷积网络上，并投入同样的优化努力，卷积网络可以达到与Transformer相同的性能。

关键差异在于效率：

卷积网络在数据较少时表现更好（归纳偏置的价值）
处理高分辨率、高帧率视频时，Transformer的token数量变得不切实际
所有实时视觉系统都使用卷积网络——汽车的自动紧急制动、高速公路辅助驾驶，无一例外

当然，如果数据充足，归纳偏置可以被数据替代——这是"苦涩的教训"。但在需要实时响应的具身系统中，效率仍然至关重要。

十五、未来十年的愿景

LeCun正在创办一家"非常有雄心"的新公司，核心理念是：

在几年内打造能够理解物理世界的系统：

接受任何模态的输入
构建世界模型
利用世界模型进行规划
构建层级化世界模型实现层级化规划
成为未来AI系统的蓝图

这是一个完全不同于LLM的范式：

❌ 不是生成式的（不在输入空间预测）
❌ 不使用自回归token预测
✅ 使用JEPA（在表示空间预测）
✅ 使用规划（预测行动后果，优化行动序列）

LeCun认为时机已经成熟，因为：

V-JEPA已经证明从视频训练可以获得常识
预测式世界模型已经可以用于机器人规划
层级化架构的研究正在推进

这将是下一场AI革命。我们已经能看到一条通往远比当前LLM更强大的AI系统的清晰路径。

核心观点总结

主题	核心观点
LLM的局限	语言是"简单"的，LLM成功是因为在语义层面操作；对物理世界的高维连续噪声数据无效
机器人现状	所有炫酷演示都是预计算的；没有任何公司知道如何让机器人真正智能
VLA的价值	对脚本化的狭窄任务有用，但脆弱、不可泛化，类似80年代的专家系统
世界模型	智能的核心——能预测行动后果才能规划；必须在抽象表示空间而非像素空间工作
JEPA vs 生成式	生成式方法在图像/视频表示学习中全面落败于联合嵌入方法；已有大量实证
层级化规划	AI中完全未解决的问题，但对实用智能至关重要；需要多层级世界模型
学习的蛋糕理论	自监督学习是主体（与具身无关），模仿学习是薄层，强化学习只是樱桃
硬件瓶颈	核心问题是数据搬运的能耗；需要纳米级非易失性模拟存储技术突破
在线适应	是自监督学习而非强化学习；基于预测误差调整世界模型，与任务无关
下一场革命	基于JEPA的非生成式、规划式AI将取代当前的LLM范式，成为真正智能系统的基础

一句话总结

当前AI产业对LLM的集体迷恋是一个历史性的误判。真正通往智能的道路不是更大的语言模型，而是能够理解物理世界、在抽象表示空间中预测行动后果、进行层级化规划的世界模型——这是具身AI的核心，也是下一场AI革命的引爆点。