OpenAI、画像生成「Images 2.0」を発表多言語テキスト描画が大幅向上

OpenAI は 4 月 21 日、ChatGPT の画像生成を刷新する新モデル「Images 2.0」を公開しました。通常版に加えて有料プラン向けに用意された「thinking mode」ではウェブ検索や複数案の自動比較を行い、指示追従性・文字描画・シーン構成で「段階的な飛躍」(step change) と自社説明しています。

主なポイント

最大 2K 解像度、1 回のプロンプトで最大 8 枚まで同時生成可能
日本語・韓国語・ヒンディー語・ベンガル語など非ラテン文字の描画精度が大幅向上し、メニュー表・インフォグラフィックスに耐える品質に
「thinking mode」ではウェブ検索と自己チェックを行い、多パネルの漫画・マーケ素材のサイズ違い展開などの複合タスクが可能
従来より約 10 倍密度の高いシーンでも崩れにくいとされ、従来世代の弱点だった細部の整合性が改善
ChatGPT Plus / Team / Enterprise と Codex で利用可、開発者向け API も提供

出典: ChatGPT's new Images 2.0 model is surprisingly good at generating text