找回密码
 立即注册

最新:仿人机器人的 4 个 AI 训练思路

2024-11-21 22:12| 发布者: admin| 查看: 289| 评论: 0|来自: 知乎

摘要: 以谷歌 PaLM-E 为里程碑,机器人类人操作领域诞生了一系列全新的 AI 方法。这段时间以来,各大公司和高校又不断贡献了创新的训练思路,今天总结几个当下主流方法。从终局来看,哪种训练方法会成为主流,今天还不好下 ...

以谷歌 PaLM-E 为里程碑,机器人类人操作领域诞生了一系列全新的 AI 方法。这段时间以来,各大公司和高校又不断贡献了创新的训练思路,今天总结几个当下主流方法。

从终局来看,哪种训练方法会成为主流,今天还不好下结论。短期内,大概率各路径会mix together,即各家公司融合多种训练方法,互补数据,最终找到最适合自己业务场景的 AI 路径。

下文重点介绍以下4路径,从最传统到最前沿排序为:

  1. 虚拟环境中仿真(sim2real)
  2. 动捕+遥操作(tele-operation)
  3. 模仿学习(mimic play)
  4. 积累机器人动作库,大模型调度小模型(VLM)


以下为各路径优势劣势一览表:


1. 虚拟环境中仿真(sim2real)

代表公司:英伟达

优势:训练成本低

劣势:仿真数据和真实物理数据偏差大

英伟达于 ITF World 2023 展示了几条具身智能的落地思路,包括机器人训练、自动驾驶、更智能的语音助手。

英伟达 ITF World 2023 具身智能

其中,多模态具身AI系统 Vima 是英伟达 2022 年底与斯坦福李飞飞合作的研究成果 (vimalabs.github.io)。该模型基于transformer,输入自然语言、或自然语言+图片、或自然语言 + 视频序列,完成仿真控制。

但这一成果暴露的局限性在于,机器人只做拾取和放置任务太简单,且仿真环境下的被操作对象非常清晰,不能保证真实环境中成功率。

英伟达、斯坦福 VIMA 机器人仿真模型

除了机械臂,灵巧手也有类似的训练方法。前段时间于伦敦举办的机器人顶会 ICRA 上,也有团队展示了在虚拟环境中训练灵巧手、采集数据。

他们为 ShadowHand 生成了大规模仿真数据集 DexGraspNet,包含133类5355个物体的132万抓取数据,在数量和质量上优于现有灵巧手抓取数据集。


2. 动捕、遥操作(tele-operation)

Tesla 展示的机器人遥操作

通过VR+动捕设备,将人的动作直接迁移到机器人身上。本届 ICRA 机器人顶会上,也多次出现了这一方法。

代表公司:Tesla等多家人形机器人公司、腾讯Robotics X

优势:相对主流、直接有效的方法,尤其适合人形机器人使用

劣势:数据采集成本高,需要真人实时控制,无法真正实现机器替人

ICRA:动捕实现机器人动作控制、表情控制

不只是双足,四足机器人也可以使用此方法。腾讯 Robotics X 最近发布了基于真狗的动捕思路,可以看到四足机器人明显的运动能力提升。

腾讯 Robotics X:基于动捕的四足机器人训练

步骤如下:

Step1:动捕采集真狗运动数据;

‍Step2:虚拟环境下训练;学习策略层面知识的网络参数,增加思考、判断能力;

Step3:实现灵巧的运动能力、更强的决策力。


3. 模仿学习(mimic play)

真人在机器人面前演示动作,机器人观察后,直接迁移到自己本体上完成任务。

代表公司/团队:英伟达、斯坦福、CMU

CMU 团队:Human2Robot

优势:可泛化性强,最适合家用场景,直接迁移人的动作,例如打开抽屉、拧开瓶盖这种零散动作,将不需要逐一为机器人编程。

劣势:学界诞生的方法,科研团队仅试验过少量简单、家用场景,泛化后的可靠性不能保证。

英伟达+斯坦福论文:MimicPlay: Long-Horizon Imitation Learning by Watching Human Play mimic-play.github.io

CMU论文:Human-to-Robot Imitation in the Wild human2robot.github.io

像婴儿学习走路一样,这一模型会先将人类四肢动作、躯干动作抽象出来,配合观察被操作物体的移动方式,再投射到机器人本体上。

计算机械臂、夹爪、底盘应当如何配合,再通过反复与物体交互,最终实践出适应于该种本体形态的机器人控制模式。


4. 积累机器人动作库,大模型调度小模型(VLM, visual language model)

Google PaLM-E VLM

代表公司:Google Everyday Robot / Google Deepmind

优势:能形成细分场景的数据壁垒;动作库积累后,无需反复训练,在标准化流程场景中实操效率高。

这是机器人领域最前沿的训练方法,也是和大模型时代融合最深入的。Google 的训练进展尤其值得关注,除了较早之前发布的Say-Can、PaLM-E,在刚刚过去的2-3周,该团队也发表了一系列训练上的思路迭代,很值得参考:Reward Translator、RoboCat

Reward Translator:奖励翻译器,针对于训练 low-level 机器人
RoboCat:基于100-1,000个初始任务数据库,机器人自行创建 10,000 个衍生数据库,将初始和衍生数据库融合,实现机器人的自我进化

风险和难点

  1. 目前执行速度较慢,与大模型在云端或边缘侧部署策略有关,参考PaLM-E 论文中的视频是4倍加速。
  2. 执行成功率有待提高,参考谷歌 Say-Can,目前多模态并用的准确率可以实现 80%-90% 的成功率。
  3. 数据获取难度较大:
- ToB路线,Tesla可以在自家工厂任意收集生产数据,但如果是第三方智能机器人提供商,要如何界定可收集生产数据的维度?工厂和流水线大概率很难允许数据出厂,那是否存在换个客户,就要重新fine-tune一套小模型的商务难点?
- ToC路线同理,家用环境数据、交互数据将被允许收集到什么程度,才能避免侵犯客户隐私?


最后,在大小模型耦合的技术路径上,创业公司未来的核心竞争力可能在于:针对场景,开发自己的小模型动作库,形成数据壁垒


路过

雷人

握手

鲜花

鸡蛋

QQ|Archiver|手机版|小黑屋|软件开发编程门户 ( 陇ICP备2024013992号-1|甘公网安备62090002000130号 )

GMT+8, 2025-1-18 09:46 , Processed in 0.035267 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

返回顶部