Yann LeCun 并不认可当前的 LLM 是通过 AGI 的正确路线,对当前的机器人表现也持悲观态度,本文来源于最近他的一个访谈的整理,观点可以作为一个重要的参考。
引言:具身AI为何重要?
具身AI(Embodied AI),即能够在物理世界中感知、理解、推理、规划并行动的人工智能,正在成为AI领域最令人兴奋的前沿方向。从自动驾驶汽车到人形机器人,从工业控制到家用助手,具身AI的应用场景无比广阔。然而,尽管投资热潮涌动、演示视频层出不穷,这个领域隐藏着一个产业界不愿公开承认的秘密。
一、机器人行业的"皇帝新衣"
那些炫酷的机器人视频?全是预计算的。
无数公司在展示人形机器人打功夫、翻跟头的视频,但Yann LeCun直言不讳地指出:这些全部是预先计算好的动作,没有任何一家公司——绝对没有任何一家——知道如何让这些机器人聪明到真正有实用价值。
这是机器人产业的一个公开的秘密。当前的做法是:
用手写的动力学模型预先规划动作
通过强化学习做少量微调
只能在极其狭窄的任务上训练
需要收集海量数据
成本极高,泛化能力极差
一个残酷的对比: 17岁的青少年只需10到20小时的练习就能学会开车,而我们拥有数百万小时的驾驶数据,却仍然无法通过模仿学习训练出可靠的驾驶系统。连家猫的常识水平,现有机器人都望尘莫及。
二、为什么语言是"简单"的?
LLM之所以成功,恰恰是因为语言是简单的。
这个判断乍看违反直觉,但逻辑清晰:语言天然处于语义层面。一个token就近似一个语义概念——当我们说"汽车"时,LLM直接在这个抽象概念上运作,不需要处理真实汽车的颜色、光影、材质、运动轨迹等无穷细节。
而真实世界完全不同。物理世界的数据是高维的、连续的、充满噪声的——视频、传感器信号、力反馈……这些信号中包含了海量无法预测的信息。对语言成功的方法,对物理世界根本不起作用。
这就是为什么我们有能通过律师资格考试、能写代码、能解方程的AI,却没有能清理餐桌和装洗碗机的机器人。
三、VLM和VLA:有用但有限
当前业界兴奋的VLM(视觉语言模型)和VLA(视觉语言动作模型)是什么?
VLM:将视觉表示与语言token混合,利用LLM的架构处理
VLA:VLM的变体,输出是动作序列
LeCun的评判是尖锐的:VLA只在动作遵循固定脚本时才能工作。 它本质上是用数据驱动的方式替代了传统编程来自动化重复性任务——有用,但极其脆弱,只适用于狭窄的应用场景。
他将此类比为1980年代的专家系统。当年"知识工程师"是最热门的职业——坐在人类专家旁边,将知识翻译成规则和事实,然后用推理引擎替代专家。结果呢?因为系统太脆弱、知识迁移成本太高,这条路基本失败了。
VLA会走同样的路。 有少量实用场景,但绝不是通往通用智能的道路。
四、世界模型:AI的核心缺失
真正的智能需要什么?需要世界模型。
世界模型的定义很简单:给定当前世界状态和一个想象中的行动,能否预测行动后世界会变成什么样?人类和动物时刻都在做这件事:
17岁青少年知道在悬崖边打方向盘的后果,不需要真的开下悬崖
10岁孩子第一次就能清理餐桌和装洗碗机
第一次滑雪的人虽然笨拙,但不会做出违反物理规律的动作
这就是为什么人类能"零样本"完成新任务——我们拥有世界模型,能在头脑中模拟行动的后果。
而当前的AI系统——无论是LLM、VLM还是VLA——都没有这种能力。
五、为什么不能在像素级别预测?
一个关键洞察:世界模型不能在像素级别工作,必须在抽象表示空间中运作。
原因很直观:如果我拍摄这个房间的视频,旋转摄像头,然后要求系统预测接下来的画面——系统可以预测"可能有一扇门",但绝不可能预测出房间里每个人的长相、衣服的纹理等细节。这些细节包含的信息量是无限的。
训练生成式模型在像素级别做预测会怎样?
最好的情况是产生所有可能未来的"平均值"——一张模糊无用的图
用扩散模型可以绕过这个问题,但预测器会出现模式坍缩
能生成好看的视频,但不理解底层动力学
LeCun花了15年尝试从视频中做自监督学习,前10年都在用生成式模型——结论是对自然视频根本行不通。
大量实证表明: 在图像表示学习中,联合嵌入预测架构(JEPA)全面碾压生成式方法(如MAE)。DINO等自监督学习方法甚至已经超越了有大量标注数据的监督学习方法——这是最近一年才发生的事。
六、JEPA:下一代AI架构
JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构) 是LeCun力推的新范式:
学习抽象表示:不在像素空间预测,而是学习输入信号的抽象表示
在抽象空间中预测:预测只包含可预测的信息,自动忽略噪声和不可预测的细节
可以条件化于动作:加入动作输入就成为世界模型
具体做法是:取一段视频,通过遮蔽破坏一部分,将完整视频和破坏后的视频分别送入两个编码器,训练预测器从被破坏的表示预测完整的表示。整个系统端到端训练。
V-JEPA 2 已经在等效100年的视频数据上训练完成。这听起来很多,但实际上只是YouTube一天的上传量。关键数据:视频数据量约10^15到10^16字节,是最大LLM训练文本数据(约10^14字节)的100倍。
这就是为什么我们永远不可能仅通过文本训练达到人类水平的智能。我们需要真实世界的数据。
七、层级化规划:智能的核心挑战
人类如何规划从纽约到巴黎的旅行?
不可能用毫秒级的肌肉控制来规划整个旅程。我们在非常抽象的层面规划:
最高层:去机场,坐飞机(两步计划)
中间层:下楼,叫出租车
最低层:站起来,走到门口,开门
每一层的世界模型不同:
低层模型:短期预测,高细节,低级动作(肌肉控制)
高层模型:长期预测,高抽象,高级动作(叫出租车去机场)
关键原则:抽象层级越高,预测的时间跨度越长,需要忽略的细节越多。
就像科学中的抽象层级:从量子场论到粒子物理到化学到生物到心理学到经济学——描述同一个房间里发生的事情,正确的层级是心理学和社会科学,而不是粒子物理。
这种层级化世界模型和层级化规划在AI中是一个完全未解决的问题。LeCun表示他的团队正在研究多层级的JEPA架构。
八、从视频到机器人:两阶段训练
如何将视频学到的世界知识迁移到具体的机器人?
第一阶段:通用预训练(与具身无关)
在海量自然视频上训练V-JEPA
系统学会物理现实的抽象表示和预测能力
不涉及任何特定机器人或任务
第二阶段:具身微调(少量数据)
固定编码器,微调预测器
加入动作作为输入:状态 + 动作 → 下一状态
需要三个子模型:机器人自身的模型、环境的模型、交互的模型
数据可以通过仿真获得(但仿真的是动力学,不是具体任务)
所需数据量远小于预训练
得到的模型是通用的,可用于任何任务
实验证明:这种方法已经能用于规划机器人拿杯子、倒水等操作。
九、常识的曙光:像测试婴儿一样测试AI
V-JEPA是否真的学到了常识?
测试方法借鉴了发展心理学测试婴儿的方式:给婴儿展示违反物理规律的场景(如物体悬浮在空中),观察其反应。6个月大的婴儿无动于衷,10个月大的婴儿会惊讶——因为他们已经建立了重力的世界模型。
同样的测试应用于V-JEPA:展示一段球在空中停住、变成方块或消失的视频,模型的预测误差飙升。 系统"知道"这是不可能的。
这是我第一次看到任何模型展现出某种水平的常识。
十、自监督学习的"蛋糕理论"
LeCun十年前提出的著名"蛋糕"比喻至今有效:
🍰 蛋糕主体(自监督学习):观察世界运转,学习表示和世界模型。不需要专家,不需要他人指导,只需观察世界。大多数动物都是这样学习的——章鱼从不认识父母,却在几个月内变得非常聪明。
🍓 薄薄的一层(监督/模仿学习):模仿专家或人类的行为。大多数动物甚至跳过了这一阶段。
🍒 樱桃(强化学习):微调,极其低效。用强化学习从零训练自动驾驶?汽车得在悬崖边掉下去几千次才能学会那是个坏主意——然后换一个悬崖又得重来。
而且——蛋糕主体是与具身无关的。 同一个世界模型可以适配不同的机器人。
十一、硬件瓶颈:为什么20瓦的大脑碾压千瓦级GPU
人脑消耗约20瓦功率,为什么计算机实现同样功能需要千万倍的能量?
核心问题:硬件复用(Hardware Multiplexing)
在大脑中,每个突触、每个神经元都有对应的物理实体——"权重就在原地"。计算不需要大量搬运数据。
在计算机中,同一块硅片要复用来计算多个神经元和突触的输出。这意味着必须不断从内存中搬运数据到计算单元再写回——几乎所有能量都消耗在数据搬运上。
GPU通过层次化内存减少了部分开销,但根本问题没有解决。要真正匹配大脑的效率,需要:
非易失性模拟存储技术:纳米级别的单个模拟记忆单元
大规模并行:不需要很快(人脑只运行在约10Hz),但需要极度并行
可能的技术路线:自旋电子学、碳纳米管、光学器件……但目前都不存在
在线学习能力:由于模拟器件的个体差异,系统必须能在线适应自身硬件特性——就像生物大脑一样"不可复制、独一无二、终有一死"
每一个实时视觉系统——包括所有汽车的自动紧急制动系统——都使用卷积神经网络而非Transformer。 因为只有卷积网络能满足实时性要求。
十二、在线适应:不是强化学习
一个重要的概念澄清当你拿起一个杯子发现它比预想的重得多时,你的世界模型会在毫秒内自动调整——这个过程可能发生在小脑中(人脑中大部分神经元其实在小脑,约5000万个,而皮层只有1600万个)。
这不是强化学习,而是自监督学习。 LeCun强调这个区别至关重要:
强化学习:有任务目标,有价值函数,有奖励信号
自监督在线适应:观察世界,发现预测错误,等待观察实际发生了什么,调整预测器——没有任务,没有奖励,只有预测误差
这种适应是通用的、与任务无关的。当我们观察到违反内部世界模型的事件时,我们被本能地编程为对其高度关注——因为它可能意味着世界模型不准确需要更新,也可能意味着一只老虎正在向我们扑来。
十三、硅谷的集体盲区
LeCun对当前AI产业的批评毫不留情:
整个AI产业完全被LLM"洗脑"了。硅谷所有人都在挖同一条战壕——互相挖角工程师,谁都不敢做不同的事情,因为一旦偏离方向就会落后于竞争对手。
这正是他离开Meta的原因。Meta也加入了这场"LLM军备竞赛",这对公司可能是正确的战略决策,但不是他感兴趣的方向。
他将这种现象与历史对比:就像80年代所有人都押注专家系统,2010年代中期所有人都押注强化学习一样——过度集中在单一技术路线上,最终会发现这条路的天花板比想象中低得多。
十四、卷积网络并未死去
一个被忽视的事实:在学术论文中,Vision Transformer(ViT)占据主导;在实际部署中,卷积网络无处不在。
LeCun引用了NYU同事Saining Xie的工作(ConvNeXt):如果把Transformer中的技巧移植到卷积网络上,并投入同样的优化努力,卷积网络可以达到与Transformer相同的性能。
关键差异在于效率:
卷积网络在数据较少时表现更好(归纳偏置的价值)
处理高分辨率、高帧率视频时,Transformer的token数量变得不切实际
所有实时视觉系统都使用卷积网络——汽车的自动紧急制动、高速公路辅助驾驶,无一例外
当然,如果数据充足,归纳偏置可以被数据替代——这是"苦涩的教训"。但在需要实时响应的具身系统中,效率仍然至关重要。
十五、未来十年的愿景
LeCun正在创办一家"非常有雄心"的新公司,核心理念是:
在几年内打造能够理解物理世界的系统:
接受任何模态的输入
构建世界模型
利用世界模型进行规划
构建层级化世界模型实现层级化规划
成为未来AI系统的蓝图
这是一个完全不同于LLM的范式:
❌ 不是生成式的(不在输入空间预测)
❌ 不使用自回归token预测
✅ 使用JEPA(在表示空间预测)
✅ 使用规划(预测行动后果,优化行动序列)
LeCun认为时机已经成熟,因为:
V-JEPA已经证明从视频训练可以获得常识
预测式世界模型已经可以用于机器人规划
层级化架构的研究正在推进
这将是下一场AI革命。我们已经能看到一条通往远比当前LLM更强大的AI系统的清晰路径。
核心观点总结
一句话总结
当前AI产业对LLM的集体迷恋是一个历史性的误判。真正通往智能的道路不是更大的语言模型,而是能够理解物理世界、在抽象表示空间中预测行动后果、进行层级化规划的世界模型——这是具身AI的核心,也是下一场AI革命的引爆点。
评论