2024-11-06 14:38来源:本站
谷歌希望通过发布人工智能学习模型“机器人变压器”(RT-2),使其机器人更加智能。
RT-2是该公司称之为视觉-语言-行动(VLA)模型的新版本。该模型教会机器人更好地识别视觉和语言模式,以解释指令,并推断出最适合请求的对象。
研究人员在厨房办公室的环境中用机械臂测试了RT-2,要求它的机械臂决定什么是一个好的临时锤子(它是一块石头),并选择一种饮料给疲惫的人(红牛)。他们还告诉机器人把可乐罐移到泰勒·斯威夫特的照片上。这个机器人是一只斯威夫特,这对人类来说是个好消息。
该公司在一篇论文中表示,新模型在网络和机器人数据上进行训练,利用谷歌自己的Bard等大型语言模型的研究进展,并将其与机器人数据(比如要移动的关节)结合起来。它还能识别除英语以外的其他语言的方向。
多年来,研究人员一直试图给机器人灌输更好的推理能力,以解决如何在现实环境中生存的问题。The Verge网站的詹姆斯·文森特指出,现实生活是毫不妥协的混乱。机器人需要更多的指导才能为人类做一些简单的事情。例如,清理洒出的饮料。人类本能地知道该怎么做:捡起玻璃杯,找个东西把残羹剩饭吸掉,扔出去,下次要小心。
以前,教机器人需要很长时间。研究人员必须单独编写指令。但借助RT-2等VLA模型的强大功能,机器人可以访问更大的信息集来推断下一步该做什么。
谷歌在智能机器人领域的首次尝试始于去年,当时该公司宣布将在机器人领域使用其LLM PaLM,创建了一个名为PaLM- saycan的系统,将LLM与物理机器人技术相结合。
谷歌的新机器人并不完美。《纽约时报》看到了这款机器人的现场演示,报道称它错误地识别出了汽水的味道,并把水果的颜色误认为是白色。
根据你是哪种类型的人,这个消息要么是受欢迎的,要么让你想起《黑镜》(受波士顿动力公司机器人的影响)中可怕的机器狗。不管怎样,我们都应该期待明年出现更智能的机器人。它甚至可以用最少的指令清理泄漏。