导航菜单

OpenAI的全新AI图像生成器突破了细节和提示保真度的极限

导读 周三,OpenAI发布了DALL-E 3,这是其 AI 图像合成模型的最新版本,具有与ChatGPT完全集成的功能。DALL-E 3 通过严格遵循复杂的描述并

周三,OpenAI发布了DALL-E 3,这是其 AI 图像合成模型的最新版本,具有与ChatGPT完全集成的功能。DALL-E 3 通过严格遵循复杂的描述并处理图像内文本生成(例如标签和标志)来渲染图像,这对早期模型提出了挑战。目前处于研究预览阶段,将于 10 月初向 ChatGPT Plus 和企业客户提供。

与其前身一样,DALLE-3 是一个文本到图像生成器,可以根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有发布有关 DALL-E 3 的技术细节,但 DALL-E 早期版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练,其中一些图像是从 Shutterstock 等股票网站获得许可的。DALL-E 3 很可能遵循相同的公式,但采用了新的训练技术和更多的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是一个比任何其他可用的图像合成模型都更强大的图像合成模型。虽然 OpenAI 的示例因其有效性而经过精心挑选,但它们似乎忠实地遵循了提示说明,并且与现有模型相比,以最小的变形令人信服地渲染了对象。OpenAI 表示,与DALL-E 2相比,DALL-E 3 更有效地完善了手等小细节,默认创建引人入胜的图像,“无需黑客或快速工程”。

相比之下,来自另一家供应商的竞争性人工智能图像合成模型Midjourney可以很好地呈现照片级真实感细节,但它仍然需要大量反直觉的修改提示才能获得对图像输出的控制。

DALL-E 3 似乎还可以以其前身无法做到的方式处理图像中的文本(一些竞争模型,如Stable Diffusion XL和DeepFloyd在这方面做得越来越好)。例如,包含以下文字的提示:“牛油果坐在治疗师的椅子上,说&luo;我感觉内心很空虚&ruo;,中间有一个坑大小的洞”,创建了一个完美地带有角色引言的卡通牛油果封装在一个对话气泡中。

值得注意的是,OpenAI 表示,DALL-E 3 是在 ChatGPT 上“原生构建”的,并将作为 ChatGPT Plus 的集成功能出现,允许以 AI 助手作为头脑风暴合作伙伴的方式对图像进行对话式改进。这也意味着 ChatGPT 将能够根据当前对话的上下文生成图像,这可能会带来新颖的新功能。微软的 Bing Chat AI 助手也是基于 OpenAI 的技术构建的,自 3 月份以来已经能够在对话中生成图像。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: