DeepMind和Gemini 1.5 Pro打开机器人技术的新大门
谷歌的人工智能研究部门Google DeepMind在其机器人理解现实世界方面取得了重大进展。
这一进展归功于 Gemini 1.5 Pro 的使用,这是一个具有200 万代币上下文窗口的 AI 模型。
DeepMind 和 Gemini 1.5 Pro 打开机器人技术的新大门
DeepMind 利用人工智能提升机器人技术
上下文窗口就像人工智能模型的视野。想象一下,您向虚拟助理询问“最受欢迎的冰淇淋口味”的问题。
具有小上下文窗口的模型将仅搜索风味名称。然而,具有宽窗口的模型将考虑每种口味的可用信息量并确定受欢迎程度。
DeepMind 利用这个扩展的上下文窗口在真实环境中训练机器人。目标是让机器人保留环境的详细信息并协助用户进行上下文查询。
例如,在社交网络上分享的视频中,当用户请求“绘图的地方”时,可以看到机器人引导用户到白板。
从说明和视频中学习
DeepMind 在一篇文章中表示: “得益于Gemini 1.5 Pro 的 100 万个令牌上下文窗口,我们的机器人可以使用人类指令、虚拟演练和常识推理在空间内移动。”
为了实现这一突破,DeepMind 将 Gemini 与其自己的 Robotic Tranormer 2 (RT-2) 模型相结合。 RT-2 模型基于视觉-语言-动作 (VLA),从网络数据中学习。
它使用计算机视觉来处理真实环境并生成数据集。然后,生成人工智能处理这些数据以理解上下文命令并得出所需的结果。
DeepMind 目前训练机器人的类别为多模式教学导航 (MIN),其中包括环境探索和指令引导导航。如果演示是合法的,这项技术将极大地推动机器人领域的发展。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。