上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。
就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。
这也意味着,从今天开始,全世界的开发人员都可以使用 ChatGPT 强大的图像生成功能了。
API 指南:https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
gpt-image-1 具有以下特点:
- 生成更准确,更高保真图像;
- 多样的视觉风格;
- 精确的图像编辑;
- 丰富的世界知识;
- 一致的文本呈现。
OpenAI CEO 奥特曼表示:API 版本与ChatGPT 版本有一些不同:主要表现在用户可以使用 moderation 参数控制审核敏感度。还可以控制质量与生成速度、背景、输出格式等。
在价格方面,gpt-image-1 按 token 定价,文本和图像 token 的定价不同:
- 文本输入 token(提示文本):每 100 万 token 5 美元
- 图像输入 token(输入图像):每 100 万 token 10 美元
- 图像输出 token(生成的图像):每 100 万 token 40 美元
在实际使用中,这意味着用户生成低质量、中质量和高质量的方形图像,分别需要花费约 0.02 美元、0.07 美元和 0.19 美元,再加上文本输入价格,只能说这很 OpenAI。
API 可以带来一系列好处,比如用户可以在单个请求中一次生成多张图像,但需要先设置 n 参数,默认情况下,API 返回单张图片。(感觉 token 使用量在燃烧。)
用户还可以将一张或多张图像作为参考图像来生成新图。在本例中使用 4 张输入图片来生成一张新的图片。
还可以使用蒙版进行图片编辑:
OpenAI 表示,现在已经有多家企业和初创公司将该模型用于创意项目、产品和体验。例如,多媒体巨头 Adobe 旗下的 Firefly 和 Express 应用,将集成 OpenAI 的图像生成功能。
AI 视频生成平台 HeyGen 正在集成 gpt-image-1 来增强虚拟形象的创建,特别是改进平台内的虚拟形象编辑功能。
大家可以参考官方 API 指南,了解更多内容。
参考链接:https://openai.com/index/image-generation-api/