大模型的终点——具身智能？

人形机器人火了好长时间，从知名到被来回卖了很多次的波士顿动力，到狼狈上市的优必选，机器人虽然火，但是在过去的发展中相对还是尴尬的。当然这其中最大的问题是没有灵魂的躯体没有任何意义，而大模型的火热，则给这具躯体注入了灵魂，因此再度带来了机器人的火热，并再次炒热了一个老概念，具身智能！

不想过分在名词上纠结，搞了十年的智能硬件，讲了五六年的AIoT，这里汇总下关于大模型和智能硬件相结合的思考。

什么是具身智能？

浅显的字面理解就是“具象的”有“物理身体”的“智能体”。

更俗的说法，做机器人的，搭着大模型的概念，显得更时髦的一个新表述，是指：结合大模型技术，通过和机器人等物理硬件结合，目标像做一个像人一样，能与环境交互感知，能自主思考、规划、决策，还能使用对应的物理硬件行动、执行、反馈的机器人。

大神李飞飞有个表述：“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

更进一步，按照这个定义，核心在于这个智能体不仅仅是被灌输知识，基于设定好的程序执行，而是具备感知、交互、探索、学习的能力，基于一定的先验知识，能够进一步的探索、学习、理解新知识。在这个概念下，具象的机器人反而是最原始的载体了，这个和科幻中一帮高级文明但是拿刀互砍有啥区别？通过物联网中的设备感知、执行不是效率更高么？为啥非得死磕做成类人的样子呢？

在这个概念下，智能体的进化路径可能会更加多样化和丰富，不再局限于人类的形态。通过物联网中的设备感知和执行，智能体可以实现更高效的交互和学习，这或许是未来发展的一个更具前瞻性的方向。因此，将注意力放在模仿人类外形上可能并非是智能体发展的唯一出路。

对于一个独立的个体，人的身体形态也很难说是最优的，如果目标不是为了做取代人类，而是帮助、服务人类，那么在每个细分场景，都会有更优的形态，从这个角度看，很多产品的设计方向还是值得探讨的。比如下图，如果它的任务就是物流搬运场景，没必要搞成类人的样子吧？

融资新风口，做产品的好方向？

毫无疑问，在当前的融资大环境下，大模型之后，和大模型结合的硬件成为少有的热点，无论是号称奥特曼都投资了的AI Pin还是沉寂多年后又出来跳大神的Rabbit R1，再到很多机器人领域的明星项目，大模型确实让很多硬件产品更有想象力。

如果抛开融资、上市讲故事，单纯从踏实做产的层面，怎么看待具身智能？或者或更具体一点，怎么看待具身智能的通用人形机器人？

未来有多远？会不会是第二个自动驾驶？

在已经拥有类似波士顿动力这样强大的硬件基础和运动控制算法的情况下，以及过去一年多来发展迅猛的大型模型技术，包括目前正在快速发展的多模态大型模型技术，"躯体"和"灵魂"似乎已经有了基础，真正的通用智能还有多远？是三年、五年、十年还是更久？

最初对智能驾驶曾持乐观态度，但转眼间谷歌开始自动驾驶已经14年了，国内首批特斯拉交付也已经过去10年，李彦宏坐上自动驾驶车在五环行驶也已经7年了。尽管过去两年似乎取得了很大的进展，但自动驾驶真的已经达到了最终阶段了吗？同样地，在当前技术背景下，通用的人形机器人还有多远？它会不会成为第二个自动驾驶呢？

什么时候能够可以经济的落地、大规模的商业化？

早期自动驾驶汽车头上背着大脑袋，多线的激光雷达极其昂贵，马斯克凭着第一性原理，基于成本更低的纯视觉方案最快落了地，激光雷达的价格一直在降低，但是也就是这两年才真正在一些二三十万的高配车中落地，更大规模的商业化还有距离。那么通用的人形机器人啥时候成本能够降到可以大规模落地的程度。

智元的第一款机器人计划今年压到20万以内，达到这个成本，在今年也还是在一些特定的作业场景。对智能程度要求没那么高，相比机械臂等有更高的柔性，花三四年的人力成本使用这样一款机器人，在经济上没啥问题，如果能够达到一个初级保姆的智能水平，花两三年请保姆的钱，买这样的产品也会成为爆品。然而更多的产品可能像之前的机器狗和一些服务、导览机器人一样，要么是个性价比不高的大号玩具，要么就是一个昂贵的面子产品。

面向特定行业的具身智能是否更具实用性？

对于这个问题，我认为答案相当明确。目前，包括智能硬件在内的任何新兴技术，其发展轨迹通常是由专用向通用转变。即便是像稚晖君推出的智元这样的先进产品，尽管其被宣传为第一代通用型人形具身机器人，实际上它的应用仍然首先被限定在特定的物流搬运场景中。然而，既然我们讨论的是特定行业，我们不禁要问，是否一定需要采用人形的具象形态？如果答案是否定的，那么我们是否又回到了之前广泛讨论的AIoT场景，即将大型模型技术与物联网相结合，利用物联网的感知和操作能力，以及大型模型的认知和决策能力，对传统设备和硬件进行升级改造，从而实现更高的实用性。毕竟，具身智能的概念并不仅限于人形机器人。

多模态大模型是具身智能的关键

Transformer架构在语言之后，很快迎来了在图像上突破，目前以谷歌为代表的，已经开启了在图像、音频、语言维度的原生多模态训练，RT-2项目更是将视觉、语言、行动做了统一，将动作也转化成一种语言，将其转换为Tokens之后和视觉、文本的一起融合训练，然后结合机器人数据进行融合微调。由于动作表示为文本字符串，因此可以将它们视为允许操作机器人的另一种语言。这种简单的表示方式可以直接微调任何现有的视觉语言模型，并将其转换为视觉-语言-行动模型。在推理过程中，文本标记被去标记化为机器人动作，从而实现闭环控制。这使我们能够利用视觉语言模型的骨干和预训练来学习机器人策略，将其一些泛化、语义理解和推理转移到机器人控制中。

虽然在原理上听起来很简单，貌似在方法上也没高明太多，但是大道至简，已经是原生的多模态融合训练，相比现在很多机器人项目通过文本和mask硬性串联缝合的结果还是要好太多。

大模型第一阶段的质变已经告一段落，现在重新进入攒量的阶段，下一次质变相信就会在多模态，起码是图文理解、认知的多模态能够有更大的突破。

我的一些观点和计划

不追风口、不炒概念，踏踏实实把视觉大模型做好，去年发布后近期确实投入不足，但是好在有类似LLaVA之类的项目在保持低门槛的同时，在品质上还是有很大提升。结合安防的垂直场景，做好落地应用，探索出经济、有效、真正有用的落地产品和形式。

去年初步探索的VQA能力，今年会更加细分的产品化，在门锁、门铃场景我们即将发布门前安全认知大模型，针对店巡检场景，结合店铺的规范陈列、一些工业场所的安全巡检，和摄像机产品深度结合，做好落地。