导航菜单

DeepMind和Gemini 1.5 Pro打开机器人技术的新大门

导读 谷歌的人工智能研究部门Google DeepMind在其机器人理解现实世界方面取得了重大进展。这一进展归功于 Gemini 1.5 Pro 的使用,这是一个...

谷歌的人工智能研究部门Google DeepMind在其机器人理解现实世界方面取得了重大进展。

这一进展归功于 Gemini 1.5 Pro 的使用,这是一个具有200 万代币上下文窗口的 AI 模型。

DeepMind 和 Gemini 1.5 Pro 打开机器人技术的新大门

DeepMind 利用人工智能提升机器人技术

上下文窗口就像人工智能模型的视野。想象一下,您向虚拟助理询问“最受欢迎的冰淇淋口味”的问题。

具有小上下文窗口的模型将仅搜索风味名称。然而,具有宽窗口的模型将考虑每种口味的可用信息量并确定受欢迎程度。

DeepMind 利用这个扩展的上下文窗口在真实环境中训练机器人。目标是让机器人保留环境的详细信息并协助用户进行上下文查询。

例如,在社交网络上分享的视频中,当用户请求“绘图的地方”时,可以看到机器人引导用户到白板。

从说明和视频中学习

DeepMind 在一篇文章中表示: “得益于Gemini 1.5 Pro 的 100 万个令牌上下文窗口,我们的机器人可以使用人类指令、虚拟演练和常识推理在空间内移动。”

为了实现这一突破,DeepMind 将 Gemini 与其自己的 Robotic Tranormer 2 (RT-2) 模型相结合。 RT-2 模型基于视觉-语言-动作 (VLA),从网络数据中学习。

它使用计算机视觉来处理真实环境并生成数据集。然后,生成人工智能处理这些数据以理解上下文命令并得出所需的结果。

DeepMind 目前训练机器人的类别为多模式教学导航 (MIN),其中包括环境探索和指令引导导航。如果演示是合法的,这项技术将极大地推动机器人领域的发展。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: