数日前に公開が延期されたGoogle Geminiの詳細がリリースされた。英語以外への対応が未完成という噂の記事があったが、それは事実のようで、英語版のみでリリースされた。Geminiは、GoogleのAIエンジンとして、Bardや検索サービスに搭載され、スマホでも使えるようになっている。
Geminiには性能別に「Ultra」、「Pro」、「Nano」の3モデルあるという。Proがまず12月からBardに搭載され、1月初めから最上位モデルのUltraにアップグレイドされる。スマホのPixelには12月中には「Nano」が導入される。
Google Geminiは、Google DeepMindが開発した大規模言語モデル(LLM)だ。Googleによれば、Geminiは、ChatGPTと比較して、パラメータ数が大幅に増加しており、より高度な自然言語処理が可能になり、大量のテキストデータを学習することで、人間に近い自然言語処理を実現することを目指しているという。
GeminiはChatGPTよりも優れた性能を持つとされている。今回の発表でも、ベンチマークテストの結果が発表されている。
Googleによれば、GPT-4のベンチマーク・テストに対して同様のベンチマークをテストした結果、Geminiは32のベンチマークのうち30でGPT-4を破ったとGoogleは主張している。これらのベンチマークは、数学、物理学、歴史、法律、医学、倫理など57科目を組み合わせて知識と問題解決能力の両方をテストしているそうだ。Geminiは90%のスコアあげ、人間の専門家を上回っている。一方GPT-4は86.4%でGeminiにより劣っている。しかし、GPT-4は日常業務の常識的な推論においては、95.3%を達成して、ジェミニの87.8%を上回っている。それにしてもこの日常業務の常識的な推論とはどのような問題を指すのだろうか。
また、GPT-4と同様にGeminiもマルチモーダルで画像認識も可能だ。今回のデモンストレーションでも、映画マトリックスのシーンからから人物を認識したり、手書きで書かれたアヒルの絵からアヒルを認識した。
Geminiには、次の3つの特徴がある。まず、マルチモーダル性だ。テキストだけでなく、画像や音声などのデータも処理することができる。このマルチモーダル性により、Geminiは、テキストと画像や音声などのデータを組み合わせて、より高度な処理を実行することができる。そして効率が良いこと。従来のLLMよりも、少ない計算量で処理することができるようだ。さらに、安全性。有害なコンテンツの生成を防止するなどの安全対策が施されている。ChatGPTの安全性が十分ではないことは以前から指摘されている。だが、Geminiの安全性もGoogleの主張だけで客観的なデータは示されていない。
Googleは、OpenAIのChatGPTの公開でAI競争では先行されてしまった焦りがあるのだろう。これの挽回のために、この1年かけて、Geminiを開発してきた。実際に、これから使ってみないとGeminiがどれほどGTP-4より優れているかわからない。しかし、これまでのGoogleのAIエンジンよりも一段上にはなっている事は確実だろう。
今後は、 OpenAIや、そのライバルのAnthropicも黙ってはいないだろう。今後果てしなくAIの軍拡競争が続く。この競争が、生活を豊かにし、壊滅的な破壊を招かないことを祈るのみだ。