在 Oracle CloudWorld 大会上,Oracle 云基础设施 (OCI)推出了其首个泽塔级 OCI 超级集群,该集群由 NVIDIA Blackwell 平台提供支持。该解决方案旨在帮助企业加速 AI 工作负载和数据处理,利用超过 100,000 个 NVIDIA 最新一代 GPU。这些超级集群提供了部署灵活性,无论是在本地、公共还是主权云环境中。
在最大规模下,OCI 超级集群提供的 GPU 数量是 Frontier 超级计算机的三倍多,是其他超大规模计算机的六倍多。这些系统可扩展到 131,072 个 Blackwell GPU,并提供 2.4 zettaflops 的峰值 AI 计算能力,这得益于 NVIDIA ConnectX-7 NIC 和 Quantum-2 InfiniBand 网络。基于 Blackwell 的系统预计将于 2025 年上半年上市。
NVIDIA GB200 NVL72 液冷裸机实例预览
Oracle 还在会议上预览了其专为生成式 AI 应用而设计的NVIDIA GB200 NVL72液冷裸机实例。这些实例支持大规模 AI 训练和万亿参数模型的实时推理,通过扩展的 72-GPU NVIDIA NVLink 域充当单个海量 GPU。此外,OCI 宣布即将推出 NVIDIA HGX Tensor Core GPU,能够在单个裸机实例中连接八个 GPU,使企业能够扩展到 65,536 个 GPU。这些产品有望加速大规模实时 AI 推理和训练。
对于中端 AI 工作负载,Oracle 推出了NVIDIA L40S GPU加速实例的通用版本。Oracle 的边缘解决方案还提供可扩展的 AI 部署,包括 Roving Edge Device v2,它支持多达三个 NVIDIA L4 Tensor Core GPU,即使在远程或断开连接的位置也是如此。
NVIDIA L40S GPU
企业已经在利用 OCI 超级集群进行 AI 创新。基础模型初创公司 Reka 正在使用这些集群为企业代理开发先进的多模式 AI 模型。Reka 联合创始人兼首席执行官 Dani Yogatama 表示,该基础设施使他们能够高效处理大型模型和上下文,同时在集群级别扩展训练。
Oracle 和 NVIDIA 还展示了新的集成,以加速 Oracle 自治数据库上的生成 AI 工作负载。这些集成突出了 NVIDIA GPU 如何增强 Oracle 数据库中的 AI 功能。演示包括加速批量向量嵌入、优化矢量图索引生成以及使用 NVIDIA NIM 推理微服务增强文本生成和翻译。这些创新使企业能够将 AI 无缝集成到 Oracle 数据库中的结构化和非结构化数据管理中。
解决数据驻留问题
在全球范围内,Oracle 和 NVIDIA 正在合作提供主权 AI 基础设施,满足政府和企业的数据驻留需求。总部位于巴西的初创公司 Wide Labs 在 OCI 的巴西数据中心使用 NVIDIA Tensor Core GPU 和 NeMo 框架创建了 Amazônia IA,这是一个针对巴西葡萄牙语的大型语言模型,可确保数据主权。同样,日本野村综合研究所正在利用法学硕士增强其金融 AI 平台,同时使用配备 NVIDIA GPU 的 OCI 的 Alloy 基础设施来遵守金融法规和数据主权要求。Zoom 还在 OCI 的沙特阿拉伯数据中心利用 NVIDIA GPU 来遵守当地的数据法规。
地理空间建模公司 RSS-Hydro 正在使用 NVIDIA 支持的 OCI 基础设施来模拟日本熊本地区的洪水影响。这展示了如何通过数字孪生技术将 AI 应用于气候变化缓解工作。
企业还可以使用 NVIDIA 软件(例如 NIM 微服务和 NVIDIA cuOpt)加速 OCI 上的任务自动化。这些解决方案使企业能够快速采用生成式 AI 来完成代码生成和路线优化等任务。包含这些工具的 NVIDIA AI Enterprise 软件平台可在 Oracle Cloud Marketplace 上使用,为企业提供强大的资源来增强 AI 驱动的工作流程和代理流程。