OpenAIは、ChatGPTにGPT-4oを搭載し、画像生成機能「Images in ChatGPT」を新たに導入した。このアップデートにより、ユーザーはChatGPT内で直接画像を生成できるようになり、画像の性能が大幅に向上した。
この機能は、ChatGPT Plus、Pro、Team、および無料プランの全ユーザーが利用可能だ。無料プランの利用制限はDALL-Eと同様だが、具体的な数値は公開されていない。OpenAIの広報担当者は、利用状況に応じて制限が変更される可能性があると述べている。以前、無料ユーザーはDALL-E 3で1日あたり3枚の画像を生成できた。DALL-Eの今後の扱いについては、カスタムGPTを通じて引き続き利用可能とのことだ。
OpenAIの研究責任者は、この新モデルを「これまでのモデルからの大きな飛躍」と評している。GPT-4oの「オムニモーダル」な基盤を活用し、テキスト、画像、音声、動画など、あらゆる種類のデータを生成できるようになった。
この新機能の主な改善点として、研究責任者は「バインディング」と「テキストレンダリング」を挙げている。バインディングとは、属性とオブジェクト間の正しい関係性を維持する能力を指す。従来のAI画像生成モデルでは、例えば「青い星と赤い三角形」というプロンプトに対して、赤い星と三角形のない画像を生成してしまうことがあった。特に複数のオブジェクトを生成する場合、色の混同や形状の誤りが頻繁に発生していた。しかし、「Images in ChatGPT」では、15〜20個のオブジェクトに対しても正確に属性をバインドできるようになったようだ。
テキストレンダリングの改善も顕著だ。従来、画像内のテキストは歪んで表示されることが多かったが、新機能では、テキストの誤字脱字が大幅に減少し、より自然なテキスト生成が可能になった。これは、従来のAI画像生成からの大きな改善だ。実際にデモを見ても、以前のDALL-E3より性能が向上しているようだ。
「Images in ChatGPT」は、従来のDALL-Eのような拡散モデルではなく、テキストの記述と同様に、左から右、上から下へと順番に画像を生成する「自己回帰的アプローチ」を採用しているそうだ。研究責任者は、この技術的な違いが、テキストレンダリングとバインディングの向上に貢献していると考えているという。
機能発表資料によれば、ニュートンのプリズム実験の図などや、一貫したキャラクターと吹き出しを含む複数コマの漫画、正確なテキストを含む情報ポスターなど、さまざまな例が紹介されている。また、ステッカー用の透明背景画像、レストランのメニュー、ロゴの作成など、実用的な応用例も示されている。
画像生成時間は以前よりも長くなったようだがが、OpenAIはこれを許容範囲だと考えているみたいだ。より良いものができるのであれば受け入れるだろうが、反応時間はユーザーからは問題があるだろう。OpenAIは、「待ち時間が増えるものの、画像の品質、能力、世界知識がそれを補って余りある」と述べているが、これは勝手な言い分に聞こえる。このようなことは、言わない方が得策だと思う。
安全性については、Microsoftのモデルによるテイラー・スウィフトのヌードディープフェイク、xAIのGrokによるカマラ・ハリスの銃を持った画像、Google Geminiのウォーターマーク除去機能など、過去の事例を踏まえ、OpenAIは強力な安全対策を導入しているという。OpenAIは、ウォーターマークの除去防止、性的ディープフェイクの生成ブロック、CSAM生成要求の拒否など、具体的な対策を行っているという。
「Images in ChatGPT」で生成された画像には、目で見える、視覚的なウォーターマークやAI生成を示す指標は含まれていない。しかし、OpenAIは、「すべての生成画像には、C2PAメタデータが含まれており、OpenAIによって作成されたことが示される」と説明している。
今回のアップデートにより、ChatGPTはテキスト生成だけでなく、高品質な画像生成も可能になり、ユーザーの利便性・生産性をさらに向上させることが期待される。