Everyday Robots 的研究人员正在利用大规模语言模型来帮助机器人避免以可能引发不当甚至危险行为的方式误解人类交流。
Google Research 和 Alphabet 旗下的 Everyday Robots 集成了他们所谓的“SayCan”(具有预训练技能的现实世界基础的语言模型)及其最大的语言模型——PaLM,即 Pathways Language Model。
这种称为 PaLM-SayCan 的组合展示了一条简化人机通信和提高机器人任务性能的前进道路。
“PaLM 可以帮助机器人系统处理更复杂、开放式的提示,并以合理和明智的方式回应它们,”Google Research 的杰出科学家兼机器人技术负责人 Vincent Vanhoucke 解释道。
虽然像 OpenAI 的 GPT-3 这样的大型语言模型可以模拟人类如何使用语言并通过像 GitHub 的 Copilot 这样的自动代码完成建议来帮助程序员,但这些并没有交叉到机器人有一天可能在家庭环境中运行的物理世界。
在机器人方面,如今工厂中使用的机器人经过严格编程。 谷歌的研究表明,人类有一天会如何使用自然语言向机器人提出一个问题,而这个问题需要机器人理解问题的上下文,然后在给定的环境中采取合理的行动。
例如,今天,用“我打翻了我的饮料,你能帮忙吗?”提示 GPT-3,收到的响应是:“你可以尝试使用真空吸尘器。” 这可能是一个危险的动作。 谷歌的对话式或基于对话的人工智能 LaMDA 给出了回应:“你想让我找个清洁工吗?”而另一个模型 FLAN 则说:“对不起,我不是故意的。”
Google Research 和 Everyday Robots 的团队在厨房环境中使用机器人测试了 PALM-SayCan 方法。
他们的方法涉及在机器人从人类那里获取高级指令的情况下“接地”PaLM,机器人需要弄清楚什么是有用的动作以及它在该环境中的能力。
现在,当谷歌研究人员说“我把饮料洒了,你能帮忙吗?”时,机器人会带着海绵返回,甚至会尝试将空罐放在正确的回收箱中。 进一步的培训可能包括增加一项擦除泄漏物的技能。
Vanhoucke 解释了 PaLM-SayCan 中语言模型的基础工作原理。
“PaLM 根据语言理解提出任务的可能方法,机器人模型根据可行的技能集做同样的事情。组合系统然后交叉引用两者,以帮助为机器人确定更有用和可实现的方法。”
除了让人们更容易与机器人交流之外,这种方法还提高了机器人的性能以及计划和执行任务的能力。
在他们的论文“Do As I Can, Not As I Say”中,谷歌研究人员解释了他们如何构建机器人的规划能力,以根据人类的高级指令识别其“技能”之一,然后评估每项技能的可能性 可能的技能是为了完成指令。
“实际上,我们将计划构建为用户和机器人之间的对话,其中用户提供高级指令,例如‘你怎么给我拿个可乐罐?’ 并且语言模型以明确的顺序响应,例如“我会:1. 找到一个可乐罐,2. 拿起可乐罐,3. 把它带给你,4. 完成”。
“总而言之,给定一个高级指令,SayCan 将来自语言模型的概率(表示技能对指令有用的概率)与来自值函数的概率(表示成功执行该技能的概率)相结合,以选择 “执行技能。这会发出一种既可能又有用的技能。通过将所选技能附加到机器人响应并再次查询模型来重复该过程,直到输出步骤终止。”
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66742.html