机器之心报道

机器之心编辑部

就在 DeepSeek V3「小版本更新」,阿里通义千问团队开源了新模型后,OpenAI 深夜也悄悄搞事情。

毫无预告地,OpenAI 推出 GPT-4o 原生图像生成。效果让人惊叹不已。更妙的是,即使免费用户也可使用。



先来体验一下:



在生成结果中可以看到,GPT-4o 在执行任务时首先会对我们的原始提示词进行优化,编写一个更加详细的英文版提示词:



在 OpenAI 看来,图像生成应该是语言模型的核心能力之一。因此他们将最先进的图像生成器 4o 集成到了 GPT-4o 中。

2024 年 5 月,OpenAI 发布其首个全能多模态模型 GPT-4o,与 ChatGPT 之前采用的生成式 AI 图像模型(OpenAI 的 DALL-E 3)不同 —— 这个经典的 diffusion transformer 通过去除像素噪声来根据文本提示重建图像 —— 新的图像生成器被整合到了同一个多模态模型中。OpenAI 对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式。

GPT-4o 的图像生成能力具有以下突出优势:它能精准呈现文字内容,严格遵循指令要求,并充分调用 4o 内置知识库和对话上下文 —— 包括对上传图像进行转化处理或将其作为视觉灵感来源。这些特性让用户能更轻松地创造出与构想完全一致的图像,通过视觉表达实现更高效的沟通,从而将图像生成技术升级为兼具精确性与实用性的强大工具。

效果如何,我们接着往下看。

有用且美丽的图像生成

OpenAI 基于在线图像和文本对模型进行了训练,这不仅让模型学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合后训练,最终的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。

文本渲染

一图胜千言,但有时在恰当位置生成几个字就能升华图像意境。4o 将精准符号与视觉元素完美融合的能力,使图像生成进阶为真正的视觉传达工具。

提示:「创建一张逼真的照片,内容是两名 20 多岁的女巫(一名是灰白色挑染发型,另一名是长卷的红褐色头发)正在阅读一个街标。

背景:纽约威廉斯堡一条普通的城市街道,一根电线杆上完全被许多详细的街标覆盖(例如,街道清扫时间、需要停车许可证、车辆分类、拖车规则),包括中间的几个荒谬的标志:Broom Parking for Witches Not Permitted in Zone C,Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。

人物:一名女巫拿着一把扫帚,另一名女巫拿着一个卷起的魔法地毯。她们在前景中,身体微微背向相机,头部微微倾斜,仔细查看标志。

从背景到前景的构图:街道 + 停放的汽车 + 建筑物 → 街标 → 女巫。人物必须是离拍摄相机最近的。」

这就是生成一张图片的部分提示词,提示词描述的可谓非常详细。GPT-4o 不但严格遵循指令,还将提示语中的文本字符也准确的表达出来了。



GPT-4o 生成的菜单,不知道的还以为这是一张真实菜单。

提示:「我在 Marin 开设了一家名为 Haein 的传统概念餐厅,主打采用有机农场新鲜食材烹制的韩式料理,并根据时令供应轮换菜单。请您设计一份菜单图片,需包含以下菜品 —— 整体风格要兼顾传统 / 乡村韵味与高端精致感。请为每道菜品配上优雅的彼得兔风格的插画,确保所有文字正确呈现,并使用白色背景。

顶部:大酱汤(发酵大豆炖菜) - 18 美元

大酱汤是用当地的蘑菇、豆腐和时令蔬菜做成的,配上米饭……

底部:时令米酒 —— 每杯 12 美元」



持续生成

由于图像生成功能现已深度集成于 GPT-4o 系统,用户可通过自然对话实现图像优化。GPT-4o 能基于聊天上下文中的图文内容持续创作,确保输出结果的一致性。例如在设计游戏角色时,当你反复调整和测试方案,该角色的外观特征将在多次迭代中保持高度协调。

举例来说,当你输入一张猫咪的图片,然后给出提示「给这只猫一顶侦探帽和一副单片眼镜」,GPT-4o 就能在保持原始图片的情况下,遵循指令重新生成一张。

你还可以继续修改图片,只要给点提示就可以了,例如给定提示「将这个场景制作成一款 AAA 级的 4K 游戏引擎打造的视频游戏,并添加一个神秘角色扮演游戏的用户界面作为覆盖层。在游戏中,我们可以在顶部看到生命值条和小地图,底部则显示法术图标,整体界面风格保持一致且具有标志性。」对话过程一张精美的图片就生成了。



除了图像作为输入,你也可以从提示入手,例如要求 GPT-4o 生成一张「奢华蛋壳纹理卡片上的诗歌」,然后把诗歌内容也附加上,就能出现如下的效果图,你也可以进一步修改,输入提示就可以了。



指令遵循

GPT-4o 的图像生成能够细致入微地遵循详细的提示,注重细节。其他系统在处理大约 5 到 8 个对象时可能会遇到困难,而 GPT-4o 能够处理多达 10 到 20 个不同的对象。对象与其特征和关系的更紧密绑定,使得控制更加精准。

提示:「一张正方形图片,包含一个 4 行 4 列的网格,共有 16 个物体,背景为白色。从左到右、从上到下依次排列如下:

一颗蓝色的星星

一个红色的三角形

一个绿色的正方形

一个粉色的圆形

一个橙色的沙漏

一个紫色的无穷大符号

一个黑白波点图案的领结

一个扎染风格的 42 字样

用草书写成的 OpenAI 字样

一道彩虹色的闪电」



空旷的城市,提示:下午的纽约时代广场,没有人,没有车辆,也没有发光的广告牌。



转化数学公式:



上下文学习

GPT-4o 能够分析并学习用户上传的图像,将图像的细节无缝整合到上下文中,以指导图像生成。

当你输入几张图像,然后给出提示:用这些图像作为参考,画一个三角形车轮的车辆设计。

标出前轮,后轮,并在图的下方给出文字(用小大写)

「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」



提示:蓝色电锯逼真图像。

然后再给出提示:为这个电锯做个广告,一个奶奶在感恩节餐桌上切火鸡。并添加标签行。



世界知识

原生图像生成使 4o 能够将文本和图像之间的知识联系起来,从而形成一个感觉更智能、更高效的模型。



提示:制作一个视觉信息图表,描述为什么旧金山如此多雾。

简单的一句提示,4o 就把影响环境质量的原因用图片的形式描述出来了。看来,4o 掌握的知识还是很丰富的。



要求 4o 制作一幅关于如何制作抹茶的彩色图解,也没有问题。



风格

在反映丰富多样图像风格的图像上进行训练,使模型能够令人信服地创建或转换图像。

提示:一只猫望着街上的水坑,但它的倒影是一只老虎,而且两种倒影都被水中的涟漪真实地扭曲了。



提示:创建一张超逼真的照片,内容是这四只动物在公园的野餐毯上玩扑克,画面拉远,呈现全景,照片风格逼真。一只长毛虎斑猫正拿着一手牌……



局限性

OpenAI 没有避讳自身模型的局限性。他们指出:「我们的模型并不完美。我们目前已经看到了其存在多种限制,我们将在首次发布后通过模型改进来解决这些限制。」具体来说,OpenAI 罗列出的限制包括:

  • 裁剪:GPT-4o 有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。
  • 幻觉:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。
  • 高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。
  • 精确绘图:模型可能在绘制涉及数据的图表时不准确。
  • 多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。
  • 编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但 OpenAI 预计将在一周内修复该错误。
  • 小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。



模型难以呈现完整的元素周期表

安全性

OpenAI 也强调了自己在模型安全方面所做的工作。

按照 OpenAI 之前发布的 Model Spec(模型规范),他们的目标是「通过支持游戏开发、历史探索和教育等有价值的用例来最大限度地提高创作自由 —— 同时保持严格的安全标准。与此同时,阻止违反这些标准的请求仍然和以往一样重要。」以下是对其它风险领域的评估:

通过 C2PA 和内部可逆搜索给出出处

所有生成的图像都将自带 C2PA 元数据,即会被标记成来自 GPT‑4o 的图像。OpenAI 表示,这样做是为了提供透明性。并且他们宣布已经构建了一个内部搜索工具,可利用生成结果的技术属性来帮助验证某个内容是否出自他们的模型。

阻止不良内容

OpenAI 表示将继续阻止可能违反其内容政策的生成图像请求。他们表示,当真人图像处于上下文中时,会加强对可以创建的图像类型的限制。

「与任何发布一样,安全性永不止步,而是一个持续的投资领域。随着我们更多地了解该模型在现实世界中的使用情况,我们将相应地调整我们的政策。」

使用推理来增强安全性

与审议性对齐(deliberative alignment⁠)类似,OpenAI 表示已经训练了一个可以直接根据人工编写的可解释安全规范工作的推理 LLM。

「我们在开发过程中使用了这个推理 LLM 来帮助我们识别和解决我们政策中的歧义。结合我们为 ChatGPT 和 Sora 开发的多模态技术进步和现有的安全技术,这能让我们根据我们的政策来调节输入文本和输出图像。」

有关安全性的更多论述和研究结果请访问 OpenAI 同步发布的 GPT-4o 系统卡附录。



附录地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

哪些用户可以使用?

OpenAI 表示,从今天开始,4o 图像生成能力将向 Plus、Pro、Team 和免费用户推出,作为 ChatGPT 中的默认图像生成器,企业版和教育版用户还需等待一段时间。它也可以在 Sora 中使用。对于那些 DALL・E 在其心中占有特殊地位的人来说,仍然可以通过一个专门的 DALL・E GPT 访问它。

API 用户呢?OpenAI 表示也快了:访问权限将在未来几周内推出。

最后,OpenAI 表示:「使用 GPT-4o,创建和定制图像就像天一样简单 —— 只需描述你需要什么,包括任何细节,如宽高比、使用十六进制代码的精确颜色或透明背景。」不过,OpenAI 也指出,由于此模型能生成更详细的图像,因此图像渲染时间更长,通常长达一分钟。

参考链接:https://openai.com/index/introducing-4o-image-generation/

ad1 webp
ad2 webp
ad1 webp
ad2 webp