DeepMind和Gemini 1.5 Pro打开机器人技术的新大门

发布时间：2024-07-16 10:08:26来源：

谷歌的人工智能研究部门Google DeepMind在其机器人理解现实世界方面取得了重大进展。

这一进展归功于 Gemini 1.5 Pro 的使用，这是一个具有200 万代币上下文窗口的 AI 模型。

DeepMind 和 Gemini 1.5 Pro 打开机器人技术的新大门

DeepMind 利用人工智能提升机器人技术

上下文窗口就像人工智能模型的视野。想象一下，您向虚拟助理询问“最受欢迎的冰淇淋口味”的问题。

具有小上下文窗口的模型将仅搜索风味名称。然而，具有宽窗口的模型将考虑每种口味的可用信息量并确定受欢迎程度。

DeepMind 利用这个扩展的上下文窗口在真实环境中训练机器人。目标是让机器人保留环境的详细信息并协助用户进行上下文查询。

例如，在社交网络上分享的视频中，当用户请求“绘图的地方”时，可以看到机器人引导用户到白板。

从说明和视频中学习

DeepMind 在一篇文章中表示： “得益于Gemini 1.5 Pro 的 100 万个令牌上下文窗口，我们的机器人可以使用人类指令、虚拟演练和常识推理在空间内移动。”

为了实现这一突破，DeepMind 将 Gemini 与其自己的 Robotic Tranormer 2 (RT-2) 模型相结合。 RT-2 模型基于视觉-语言-动作 (VLA)，从网络数据中学习。

它使用计算机视觉来处理真实环境并生成数据集。然后，生成人工智能处理这些数据以理解上下文命令并得出所需的结果。

DeepMind 目前训练机器人的类别为多模式教学导航 (MIN)，其中包括环境探索和指令引导导航。如果演示是合法的，这项技术将极大地推动机器人领域的发展。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。