OpenAI 发布 ChatGPT Images 2.0:会「思考」的图像模型
北京时间 4 月 22 日凌晨,OpenAI 正式发布新一代图像生成模型 ChatGPT Images 2.0,底层为全新 gpt-image-2 模型,首次将 O 系列推理能力引入图像生成。新模型同日向所有 ChatGPT 和 Codex 用户开放,付费用户可使用进阶 Thinking 模式。OpenAI 将其定义为从「渲染工具」到「视觉思考伙伴」的跨越。
📌 核心升级
– 原生推理:首次在图像模型中引入「先思考再下笔」的推理流程,可联网搜索、分析上传文档、验证自身输出,再开始生成
– 多图一致性:单次提示词最多生成 8 张保持角色/物体连续性的图像,覆盖漫画、分镜、品牌物料、儿童绘本等场景
– 2K 原生分辨率(API 内测 4K),宽高比从 3:1 超宽到 1:3 超长全覆盖
– 长文本渲染被官方称为「代差级」(step change)提升:海报、杂志封面、信息图、科研图表中的文字清晰可读,终结了 AI 生图「糊字」顽疾
– 多语言非拉丁字符大幅增强,高质量支持日语、韩语、中文、印地语、孟加拉语
– 知识截止日期延后至 2025 年 12 月
– GPT-Image-1.5 退出默认,但在 API 中保留以兼容老业务
⚙️ 产品与 API
– Instant 模式:所有 ChatGPT 用户(含免费版)可用,单次一张图
– Thinking 模式:Plus / Pro / Business 开放,Enterprise 与 Education「即将上线」,支持工具调用、联网搜索、多图并行
– API 模型:gpt-image-2(可版本化固定)+ chatgpt-image-latest(始终对齐 ChatGPT 内置快照)
– 单张 1024×1024 定价:低 $0.006 / 中 $0.053 / 高 $0.211
– Token 计价:文本输入 $5/M、输出 $10/M;图像输入 $8/M、输出 $30/M —— 比 GPT-Image-1.5 输出价下调 $2
– 部分开发者账号需完成 API Organization Verification 后方可调用