Yann LeCun 并不认可当前的 LLM 是通过 AGI 的正确路线,对当前的机器人表现也持悲观态度,本文来源于最近他的一个访谈的整理,观点可以作为一个重要的参考。

原视频地址:https://www.youtube.com/watch?v=pJyoqapCRZE

引言:具身AI为何重要?

具身AI(Embodied AI),即能够在物理世界中感知、理解、推理、规划并行动的人工智能,正在成为AI领域最令人兴奋的前沿方向。从自动驾驶汽车到人形机器人,从工业控制到家用助手,具身AI的应用场景无比广阔。然而,尽管投资热潮涌动、演示视频层出不穷,这个领域隐藏着一个产业界不愿公开承认的秘密。


一、机器人行业的"皇帝新衣"

那些炫酷的机器人视频?全是预计算的。

无数公司在展示人形机器人打功夫、翻跟头的视频,但Yann LeCun直言不讳地指出:这些全部是预先计算好的动作,没有任何一家公司——绝对没有任何一家——知道如何让这些机器人聪明到真正有实用价值。

这是机器人产业的一个公开的秘密。当前的做法是:

  • 用手写的动力学模型预先规划动作

  • 通过强化学习做少量微调

  • 只能在极其狭窄的任务上训练

  • 需要收集海量数据

  • 成本极高,泛化能力极差

一个残酷的对比: 17岁的青少年只需10到20小时的练习就能学会开车,而我们拥有数百万小时的驾驶数据,却仍然无法通过模仿学习训练出可靠的驾驶系统。连家猫的常识水平,现有机器人都望尘莫及。


二、为什么语言是"简单"的?

LLM之所以成功,恰恰是因为语言是简单的

这个判断乍看违反直觉,但逻辑清晰:语言天然处于语义层面。一个token就近似一个语义概念——当我们说"汽车"时,LLM直接在这个抽象概念上运作,不需要处理真实汽车的颜色、光影、材质、运动轨迹等无穷细节。

而真实世界完全不同。物理世界的数据是高维的、连续的、充满噪声的——视频、传感器信号、力反馈……这些信号中包含了海量无法预测的信息。对语言成功的方法,对物理世界根本不起作用。

这就是为什么我们有能通过律师资格考试、能写代码、能解方程的AI,却没有能清理餐桌和装洗碗机的机器人。


三、VLM和VLA:有用但有限

当前业界兴奋的VLM(视觉语言模型)和VLA(视觉语言动作模型)是什么?

  • VLM:将视觉表示与语言token混合,利用LLM的架构处理

  • VLA:VLM的变体,输出是动作序列

LeCun的评判是尖锐的:VLA只在动作遵循固定脚本时才能工作。 它本质上是用数据驱动的方式替代了传统编程来自动化重复性任务——有用,但极其脆弱,只适用于狭窄的应用场景。

他将此类比为1980年代的专家系统。当年"知识工程师"是最热门的职业——坐在人类专家旁边,将知识翻译成规则和事实,然后用推理引擎替代专家。结果呢?因为系统太脆弱、知识迁移成本太高,这条路基本失败了。

VLA会走同样的路。 有少量实用场景,但绝不是通往通用智能的道路。


四、世界模型:AI的核心缺失

真正的智能需要什么?需要世界模型。

世界模型的定义很简单:给定当前世界状态和一个想象中的行动,能否预测行动后世界会变成什么样?人类和动物时刻都在做这件事:

  • 17岁青少年知道在悬崖边打方向盘的后果,不需要真的开下悬崖

  • 10岁孩子第一次就能清理餐桌和装洗碗机

  • 第一次滑雪的人虽然笨拙,但不会做出违反物理规律的动作

这就是为什么人类能"零样本"完成新任务——我们拥有世界模型,能在头脑中模拟行动的后果。

而当前的AI系统——无论是LLM、VLM还是VLA——都没有这种能力。


五、为什么不能在像素级别预测?

一个关键洞察:世界模型不能在像素级别工作,必须在抽象表示空间中运作。

原因很直观:如果我拍摄这个房间的视频,旋转摄像头,然后要求系统预测接下来的画面——系统可以预测"可能有一扇门",但绝不可能预测出房间里每个人的长相、衣服的纹理等细节。这些细节包含的信息量是无限的。

训练生成式模型在像素级别做预测会怎样?

  • 最好的情况是产生所有可能未来的"平均值"——一张模糊无用的图

  • 用扩散模型可以绕过这个问题,但预测器会出现模式坍缩

  • 能生成好看的视频,但不理解底层动力学

LeCun花了15年尝试从视频中做自监督学习,前10年都在用生成式模型——结论是对自然视频根本行不通。

大量实证表明: 在图像表示学习中,联合嵌入预测架构(JEPA)全面碾压生成式方法(如MAE)。DINO等自监督学习方法甚至已经超越了有大量标注数据的监督学习方法——这是最近一年才发生的事。


六、JEPA:下一代AI架构

JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构) 是LeCun力推的新范式:

  1. 学习抽象表示:不在像素空间预测,而是学习输入信号的抽象表示

  2. 在抽象空间中预测:预测只包含可预测的信息,自动忽略噪声和不可预测的细节

  3. 可以条件化于动作:加入动作输入就成为世界模型

具体做法是:取一段视频,通过遮蔽破坏一部分,将完整视频和破坏后的视频分别送入两个编码器,训练预测器从被破坏的表示预测完整的表示。整个系统端到端训练。

V-JEPA 2 已经在等效100年的视频数据上训练完成。这听起来很多,但实际上只是YouTube一天的上传量。关键数据:视频数据量约10^15到10^16字节,是最大LLM训练文本数据(约10^14字节)的100倍

这就是为什么我们永远不可能仅通过文本训练达到人类水平的智能。我们需要真实世界的数据。


七、层级化规划:智能的核心挑战

人类如何规划从纽约到巴黎的旅行?

不可能用毫秒级的肌肉控制来规划整个旅程。我们在非常抽象的层面规划:

  1. 最高层:去机场,坐飞机(两步计划)

  2. 中间层:下楼,叫出租车

  3. 最低层:站起来,走到门口,开门

每一层的世界模型不同:

  • 低层模型:短期预测,高细节,低级动作(肌肉控制)

  • 高层模型:长期预测,高抽象,高级动作(叫出租车去机场)

关键原则:抽象层级越高,预测的时间跨度越长,需要忽略的细节越多。

就像科学中的抽象层级:从量子场论到粒子物理到化学到生物到心理学到经济学——描述同一个房间里发生的事情,正确的层级是心理学和社会科学,而不是粒子物理。

这种层级化世界模型和层级化规划在AI中是一个完全未解决的问题。LeCun表示他的团队正在研究多层级的JEPA架构。


八、从视频到机器人:两阶段训练

如何将视频学到的世界知识迁移到具体的机器人?

第一阶段:通用预训练(与具身无关)

  • 在海量自然视频上训练V-JEPA

  • 系统学会物理现实的抽象表示和预测能力

  • 不涉及任何特定机器人或任务

第二阶段:具身微调(少量数据)

  • 固定编码器,微调预测器

  • 加入动作作为输入:状态 + 动作 → 下一状态

  • 需要三个子模型:机器人自身的模型、环境的模型、交互的模型

  • 数据可以通过仿真获得(但仿真的是动力学,不是具体任务)

  • 所需数据量远小于预训练

  • 得到的模型是通用的,可用于任何任务

实验证明:这种方法已经能用于规划机器人拿杯子、倒水等操作。


九、常识的曙光:像测试婴儿一样测试AI

V-JEPA是否真的学到了常识?

测试方法借鉴了发展心理学测试婴儿的方式:给婴儿展示违反物理规律的场景(如物体悬浮在空中),观察其反应。6个月大的婴儿无动于衷,10个月大的婴儿会惊讶——因为他们已经建立了重力的世界模型。

同样的测试应用于V-JEPA:展示一段球在空中停住、变成方块或消失的视频,模型的预测误差飙升。 系统"知道"这是不可能的。

这是我第一次看到任何模型展现出某种水平的常识。


十、自监督学习的"蛋糕理论"

LeCun十年前提出的著名"蛋糕"比喻至今有效:

  • 🍰 蛋糕主体(自监督学习):观察世界运转,学习表示和世界模型。不需要专家,不需要他人指导,只需观察世界。大多数动物都是这样学习的——章鱼从不认识父母,却在几个月内变得非常聪明。

  • 🍓 薄薄的一层(监督/模仿学习):模仿专家或人类的行为。大多数动物甚至跳过了这一阶段。

  • 🍒 樱桃(强化学习):微调,极其低效。用强化学习从零训练自动驾驶?汽车得在悬崖边掉下去几千次才能学会那是个坏主意——然后换一个悬崖又得重来。

而且——蛋糕主体是与具身无关的。 同一个世界模型可以适配不同的机器人。


十一、硬件瓶颈:为什么20瓦的大脑碾压千瓦级GPU

人脑消耗约20瓦功率,为什么计算机实现同样功能需要千万倍的能量?

核心问题:硬件复用(Hardware Multiplexing)

在大脑中,每个突触、每个神经元都有对应的物理实体——"权重就在原地"。计算不需要大量搬运数据。

在计算机中,同一块硅片要复用来计算多个神经元和突触的输出。这意味着必须不断从内存中搬运数据到计算单元再写回——几乎所有能量都消耗在数据搬运上。

GPU通过层次化内存减少了部分开销,但根本问题没有解决。要真正匹配大脑的效率,需要:

  • 非易失性模拟存储技术:纳米级别的单个模拟记忆单元

  • 大规模并行:不需要很快(人脑只运行在约10Hz),但需要极度并行

  • 可能的技术路线:自旋电子学、碳纳米管、光学器件……但目前都不存在

  • 在线学习能力:由于模拟器件的个体差异,系统必须能在线适应自身硬件特性——就像生物大脑一样"不可复制、独一无二、终有一死"

每一个实时视觉系统——包括所有汽车的自动紧急制动系统——都使用卷积神经网络而非Transformer。 因为只有卷积网络能满足实时性要求。


十二、在线适应:不是强化学习

一个重要的概念澄清当你拿起一个杯子发现它比预想的重得多时,你的世界模型会在毫秒内自动调整——这个过程可能发生在小脑中(人脑中大部分神经元其实在小脑,约5000万个,而皮层只有1600万个)。

这不是强化学习,而是自监督学习。 LeCun强调这个区别至关重要:

  • 强化学习:有任务目标,有价值函数,有奖励信号

  • 自监督在线适应:观察世界,发现预测错误,等待观察实际发生了什么,调整预测器——没有任务,没有奖励,只有预测误差

这种适应是通用的、与任务无关的。当我们观察到违反内部世界模型的事件时,我们被本能地编程为对其高度关注——因为它可能意味着世界模型不准确需要更新,也可能意味着一只老虎正在向我们扑来。


十三、硅谷的集体盲区

LeCun对当前AI产业的批评毫不留情:

整个AI产业完全被LLM"洗脑"了。硅谷所有人都在挖同一条战壕——互相挖角工程师,谁都不敢做不同的事情,因为一旦偏离方向就会落后于竞争对手。

这正是他离开Meta的原因。Meta也加入了这场"LLM军备竞赛",这对公司可能是正确的战略决策,但不是他感兴趣的方向。

他将这种现象与历史对比:就像80年代所有人都押注专家系统,2010年代中期所有人都押注强化学习一样——过度集中在单一技术路线上,最终会发现这条路的天花板比想象中低得多。


十四、卷积网络并未死去

一个被忽视的事实:在学术论文中,Vision Transformer(ViT)占据主导;在实际部署中,卷积网络无处不在。

LeCun引用了NYU同事Saining Xie的工作(ConvNeXt):如果把Transformer中的技巧移植到卷积网络上,并投入同样的优化努力,卷积网络可以达到与Transformer相同的性能。

关键差异在于效率

  • 卷积网络在数据较少时表现更好(归纳偏置的价值)

  • 处理高分辨率、高帧率视频时,Transformer的token数量变得不切实际

  • 所有实时视觉系统都使用卷积网络——汽车的自动紧急制动、高速公路辅助驾驶,无一例外

当然,如果数据充足,归纳偏置可以被数据替代——这是"苦涩的教训"。但在需要实时响应的具身系统中,效率仍然至关重要。


十五、未来十年的愿景

LeCun正在创办一家"非常有雄心"的新公司,核心理念是:

在几年内打造能够理解物理世界的系统:

  1. 接受任何模态的输入

  2. 构建世界模型

  3. 利用世界模型进行规划

  4. 构建层级化世界模型实现层级化规划

  5. 成为未来AI系统的蓝图

这是一个完全不同于LLM的范式

  • ❌ 不是生成式的(不在输入空间预测)

  • ❌ 不使用自回归token预测

  • ✅ 使用JEPA(在表示空间预测)

  • ✅ 使用规划(预测行动后果,优化行动序列)

LeCun认为时机已经成熟,因为:

  • V-JEPA已经证明从视频训练可以获得常识

  • 预测式世界模型已经可以用于机器人规划

  • 层级化架构的研究正在推进

这将是下一场AI革命。我们已经能看到一条通往远比当前LLM更强大的AI系统的清晰路径。


核心观点总结

主题

核心观点

LLM的局限

语言是"简单"的,LLM成功是因为在语义层面操作;对物理世界的高维连续噪声数据无效

机器人现状

所有炫酷演示都是预计算的;没有任何公司知道如何让机器人真正智能

VLA的价值

对脚本化的狭窄任务有用,但脆弱、不可泛化,类似80年代的专家系统

世界模型

智能的核心——能预测行动后果才能规划;必须在抽象表示空间而非像素空间工作

JEPA vs 生成式

生成式方法在图像/视频表示学习中全面落败于联合嵌入方法;已有大量实证

层级化规划

AI中完全未解决的问题,但对实用智能至关重要;需要多层级世界模型

学习的蛋糕理论

自监督学习是主体(与具身无关),模仿学习是薄层,强化学习只是樱桃

硬件瓶颈

核心问题是数据搬运的能耗;需要纳米级非易失性模拟存储技术突破

在线适应

是自监督学习而非强化学习;基于预测误差调整世界模型,与任务无关

下一场革命

基于JEPA的非生成式、规划式AI将取代当前的LLM范式,成为真正智能系统的基础


一句话总结

当前AI产业对LLM的集体迷恋是一个历史性的误判。真正通往智能的道路不是更大的语言模型,而是能够理解物理世界、在抽象表示空间中预测行动后果、进行层级化规划的世界模型——这是具身AI的核心,也是下一场AI革命的引爆点。