GPT Image 2 — 16 图融合、任意文字渲染、一句话编辑照片

OpenAI 最新 AI 图像模型。最多上传 16 张参考图并融合成一张连贯画面，在图像内清晰渲染多语言文字，用一句自然语言即可编辑任意照片——现已上线 Nano Banana。

GPT Image 2 编辑器

提示词

0/20000

参考图(1-16 张)

拖放图片到此处,或点击选择文件

支持 JPEG / PNG / WEBP,单张最大 30MB,最多 16 张

提示词

0/20000

3积分

加载中...

GPT Image 2 能做什么 —— 附可直接复制的提示词

创作者正在用 GPT Image 2 完成的十种真实工作流。每一项都是模型的具体能力、典型产出,以及一条可直接粘贴到上方工具使用的提示词。

思考模式:一条提示词生成多张一致图像

不同于以往“一条提示词一张图”的模型,GPT Image 2 会先推理理解你的需求,对照世界知识核验细节,再一次性返回多张风格一致的图像。适合分镜、营销物料变体,以及任何需要“同一主体多角度呈现”的场景。

提示词

生成同一款陶瓷咖啡杯的 4 张一致产品图:白色背景前的正面图、晨光侧光图、俯拍平铺图(周围撒有咖啡豆),以及木质咖啡桌上的生活场景图。四张图中杯子的设计保持完全一致。

应用场景: 分镜 · 营销物料变体 · 产品摄影套图 · 角色设定图

多图融合 —— 一条提示词支持最多 16 张输入

最多上传 16 张图片,在提示词中按编号引用(“图 1”“图 2”……)。GPT Image 2 会对所有参考图进行高保真推理,将主体、风格、背景、光线和构图融合成一张连贯画面。这是大多数创作者“终于能做到”的决定性时刻。

提示词

将图 1 的人物、图 2 的服装、图 3 的背景、图 4 的光线氛围融合成一张连贯照片,相机角度保持与图 1 一致。

应用场景: 产品植入 · 虚拟试穿 · 合成场景 · 品牌素材适配

接近完美的多语言文字渲染

海报标题、包装标签、招牌、菜单、食谱配文——GPT Image 2 在图像中渲染文字的清晰度远超以往,尤其在日文、韩文、中文、印地文、孟加拉文等非拉丁字符上提升显著。困扰 AI 多年的“乱码文字”问题,在大多数中短文本场景下已经基本解决。

提示词

设计一张 3:4 竖版奶茶新品发布海报。现代极简风格,色彩明快,画面诱人,使用加粗的中英文字体,文字内容为“春季限定 · Spring Edition”。

应用场景: 海报 · 广告创意 · 产品包装 · 菜单板 · 多语言营销

分步食谱与操作指南信息图

食材标注、流程箭头、分量说明、成品大图——GPT Image 2 能在一次生成中搞定所有密集排版元素,每一个标签都清晰可读,任何语言都一样。

提示词

制作一张奶油蒜香蘑菇意面的分步食谱信息图,俯拍视角,简洁白色背景,食材配图标注精确分量(如“200g 意面”“150g 蘑菇”),每个步骤用虚线和图标串联,底部为成品摆盘,整体简洁现代风格。

应用场景: 食谱卡片 · 教程指南 · 小红书 / Pinterest 信息图 · 教学视觉

带有准确 UI 和标注的教程截图

产品文档团队期待已久的能力。GPT Image 2 能生成一张真实的软件 UI 截图——工具栏文字准确、菜单文本正确、带编号的步骤标注和箭头指示,真实到足以替代实拍截图直接用于教程。

提示词

生成一张真实的步骤教程截图,展示如何在 Charles Proxy 中配置域名抓包。每个 UI 元素都带有详细的英文标签,版面清晰专业,步骤 1 到 5 带编号和箭头,每步下方附简要说明文字。

应用场景: 产品文档 · 新手引导 · 帮助中心文章 · 应用商店截图

360° 沉浸式全景与历史场景漫游

一个被低估的能力,正在催生一波爆款内容:GPT Image 2 能生成等距柱状投影的 360° 全景图,可直接加载到 VR 头显或手机查看器中。思考模式会自动补全时代建筑、招牌文字和文化细节。

提示词

生成一张 360° 等距柱状全景图,场景为 1900 年的伊斯坦布尔独立大街,高度还原时代建筑细节,店铺招牌文字符合年代,氛围真实,电影感光线。

应用场景: 虚拟漫游 · 博物馆展陈 · 沉浸式叙事 · 时空穿越体验

组织架构图与商业图表(支持迭代编辑)

复杂层级、连线、部门名称、小字脚注——这些以往要在 PowerPoint 里花一下午的工作,GPT Image 2 一次生成搞定。之后还能针对具体细节迭代(“修改脚注,在工程部门下新增两个子部门”),其余版面保持完全不变。

提示词(首次生成)

为一家上市科技公司制作一张专业组织架构图,现代企业风格,部门名称准确,层级框清晰,带连接线和底部脚注文字。

提示词(迭代修改)

在上一张组织架构图基础上修改:调整脚注文字,在工程部门下新增两个子部门,更新 CEO 姓名。风格和版面保持完全一致。

应用场景: 组织架构图 · 流程图 · 商业图表 · 咨询交付物 · 路演PPT

商用级菜单板与杂志跨页

密集正文、精修图片、品牌视觉——GPT Image 2 的输出能经受真实印刷分辨率的检验,而不仅是缩略图好看。

提示词

为一家现代意式咖啡馆制作一张完整菜单板——优雅设计,搭配诱人的美食图片,价格清晰,中英文双语菜品名,菜品介绍小字可读,商用高清质量,可直接印刷。

应用场景: 餐厅菜单 · 产品图册 · 杂志内页 · 品牌手册 · 印刷物料

照片间的风格迁移

把一张图的美学风格套用到另一张的主体上。GPT Image 2 会保留参考图 B 的主体形象、构图和姿态,同时借鉴参考图 A 的色调、媒介和氛围。

提示词

将图 1 的艺术风格应用到图 2 的主体上,图 2 的构图、人物相貌和姿态保持完全不变。

应用场景: 艺术指导 · 插画创作 · 概念探索 · 品牌美学统一

自然语言照片编辑 —— 无需蒙版,无需图层

上传任意照片,用一句话描述想改的地方,GPT Image 2 会自动定位区域、执行编辑,并保留你没提到的一切。换背景、去物体、改服装、扩图、老照片修复——都在同一个提示词入口完成。

提示词

将背景替换为夜晚雨后的东京街道。人物、服装、五官保持不变。光线匹配新场景——后方冷蓝色轮廓光,面部带温暖的街灯暖光。

应用场景: 背景替换 · 物体移除 · 服装更换 · 老照片修复 · 扩图

GPT Image 2 常见问题

GPT Image 2 是什么?

GPT Image 2 是 OpenAI 最新一代图像生成与编辑模型。它能把一段提示词转换成高分辨率图像、用自然语言指令编辑现有照片、并将最多 16 张参考图融合为一张连贯画面——以上所有能力来自同一个模型。

GPT Image 2 和 Nano Banana 2 有什么区别?

两者都是强大的图像模型,只是擅长方向不同。GPT Image 2 的优势在于多图参考推理、图像内文字渲染(标签、海报、产品文案),以及跨图像的复杂合成。Nano Banana 2 在长系列图像中的角色一致性上业内领先,对于单图快速编辑通常更快。两者在你的 Nano Banana 账号里都能用——同一条提示词分别跑一下,留下合适的那个。点击试用 Nano Banana 2。

GPT Image 2 支持渲染哪些语言的文字?

拉丁字母(英语、欧洲语言)之外,在非拉丁字符上也有显著提升——日文、韩文、中文、印地文、孟加拉文是 OpenAI 官方明确提到效果大幅改善的语言。实际使用中,模型对其他字符的短文本渲染也基本可用,只是小语种的长段落质量可能有所波动。

GPT Image 2 支持透明背景吗?

暂不支持——GPT Image 2 目前不输出透明 PNG。如果需要透明背景,可以用免费 AI 抠图工具做后处理,或者在 Nano Banana 账号中选择支持 Alpha 通道的其他模型。

GPT Image 2 输出分辨率是多少?

最高可达 4K 级输出——模型支持长边约 3840px 的分辨率,涵盖 3840×2160 横版与 2160×3840 竖版,以及 1:1、3:2、2:3 和其间的灵活比例。2K 以上输出在 OpenAI 侧属于实验性功能,稳定性可能有波动。

在 Nano Banana 上用 GPT Image 2 免费吗?

新用户注册即送免费积分,之后还能通过每日签到和邀请好友获得更多积分。免费积分用完后,每次生成会根据画质档位消耗少量积分。当前价格详见定价页。

GPT Image 2 生成或编辑的图片可以商用吗?

可以,付费计划下生成的图像可用于个人、商业或创作项目。所有输出图像都包含不可见的 SynthID 水印(遵循 OpenAI 的负责任设计原则)用于溯源,但不会影响视觉质量或使用权。

多图编辑的提示词怎么写?

清晰标注每张参考图的用途。例如:“把图 1 的产品放到图 2 的场景里。应用图 3 的色调风格。保持图 2 的相机角度。”——这比“把这些图合起来”可靠得多。明确告诉 GPT Image 2 每张图分别提供什么(主体、背景、风格、光线、服装),它就能准确交付。

GPT Image 2 在编辑时真的能保持人脸和 Logo 不变吗?

比以往的图生图模型好得多——OpenAI 对每张输入图都做高保真处理,专门为保留人脸、Logo 和产品细节而优化。当然做不到每次都像素级完美,非常激进的风格迁移也可能弱化身份特征。如果需要一系列编辑中最强的人脸一致性,Nano Banana 2 通常是更稳妥的选择。