毎日のように新しいAIサービスの話題がネットに流れるので食傷気味だが、OpenAIのニュースは重要かもしれないから読んでみる。OpenAIのサイトによれば、ChatGPTの新しいモデルが発表されている。発表されたのは「GPT-4o mini」だ。このモデルは、テキスト、画像、音声、ビデオの機能を統合した、現在利用可能な小型モデルの中で最も性能が高くコスト効率の良いモデルだそうだ。
GPT-4o miniは、名前の通り、OpenAIが5月に発表した最先端かつ最速のモデルGPT-4oの派生モデルだ。ちなみに「o」は「omni」を表し、音声、ビデオ、テキストの処理における包括的な機能強化と、50の言語をサポートする優れた速度と品質を反映しているのだそうだ。
GPT-4o miniは、ChatGPTの無料ユーザーとChatGPT Plusのサブスクライバーが今週から利用可能で、来週からはChatGPT Enterpriseユーザーにも提供される。
OpenAIのサイトによれば、GPT-4o miniの主な機能と利点は以下の通りだ。
高い性能とコスト効率
GPT-4o miniは、現在利用可能な小型モデルの中で最も性能が高くコスト効率の良いモデルとなる。GPT-3.5 Turboと比較して60%以上安価で、テキストや画像の理解において優れた性能を示している。
マルチモーダル推論
GPT-4o miniは、テキストと画像の両方を扱うことができ、将来的には音声やビデオにも対応予定。これにより、様々なメディアを統合したアプリケーションの開発が可能になる。
幅広い言語サポート
GPT-4oと同様に、GPT-4o miniは50の言語をサポートしており、非英語テキストの処理がより効率的になった。
関数呼び出しのサポート
GPT-4o miniは関数呼び出しに強力なパフォーマンスを発揮し、開発者がデータを取得したり外部システムでアクションを実行したりするアプリケーションを構築できるようになる。
安全性の確保
GPT-4o miniには、GPT-4oと同じ安全性緩和策が組み込まれており、70人以上の外部専門家による評価を通じて潜在的なリスクに対処している。
低コストと低レイテンシー
GPT-4o miniの低コストと低レイテンシーにより、複数のモデル呼び出しを連鎖または並列化するアプリケーション、大量のコンテキストをモデルに渡すアプリケーション、顧客とリアルタイムのテキスト応答を通じてやり取りするアプリケーションなど、幅広いタスクが可能になる。
GPT-4o miniは、テキスト生成とマルチモーダル推論の両方において、GPT-3.5 Turboやその他の小型モデルを上回る性能を示しているそうだ。OpenAIのサイトには、様々なタスクでの、Gemini Flash、Claude Haiku、GPT-3.5 Turbo、GPT-4oとの比較が掲載されている。GPT-4o miniは、もちろんGPT-4oには劣るが、他の比較対象モデルに比べ際立った性能を示している。
GPT-4o miniは、主に開発者向けのAPIとして提供されるのだそうだ。今後、このモデルが安価かつ高性能ということで、GPT-4o miniを使用するサードパーティのサービスが続々と登場するのだろう。GPT-4o miniのトークンあたりのコストは、2022年に導入された性能の劣るtext-davinci-003と比較して99%低下しているそうだ。OpenAIは、モデルの性能を向上させつつコストを引き下げた。安価かつ高性能ということで、多くのサービスの裏側で使われ、私たちの生活に浸透してゆくと思われる。