Googleは、OpenAIのChatGPTに対抗するため、AIの推論能力の向上に力を入れているという。特に、数学やコンピュータプログラミングにおける複雑な複数段階の問題を解決することに焦点を当てており、AI推論能力の向上において、いくつかの重要な進展を遂げているそうだ。2023年7月には、数学推論ツールのAlphaProofが発表され、さらに幾何学的問題に特化した更新モデルAlphaGeometry 2も発表された。
Bloombergの報道によると、Googleでは、過去数ヶ月にわたり、複数のチームがAIの推論能力において大きな進歩を遂げてきたという。AlphaProofやAlphaGeometry 2などは、数学やコンピュータプログラミングなどの分野における複雑な複数段階の問題を解決することに優れている。7月に行われた国際数学オリンピックで銀メダルを獲得したそうだ。これは、あまりニュースになっていなかったので知らなかった。AIが数学コンクールで活躍するというのは、当たり前すぎてニュースにならないだろう。
GoogleもOpenAIも、AI技術の次の大きな飛躍となる推論モデルの開発にしのぎを削っている。どちらも、Chain-of-Thought(思考連鎖)プロンプティングと呼ばれるプロセスを用いて、人間のような推論を模倣することに焦点を当てているのだそうだ。これはGoogleが先に開発した手法で、AIが質問に答える前に少しの間を置き、その間に複数の関連する質問を自分で考えて裏側で処理することで、最終的に包括的な回答を提供するというものだ。
Chain-of-Thought(CoT)は、AIの推論能力を向上させるための革新的なプロンプティング技術だという。この手法の基本概念は、人間の思考プロセスを模倣し、複雑な問題を段階的に解決することにある。
CoTの核心は、AIモデルに問題解決の中間ステップを明示的に示させることにある。通常のAIモデルが問題に対して直接的な答えを出すのに対し、CoTを用いたモデルは問題を小さな部分に分解し、それぞれのステップを順番に解決していく。この過程で、AIは各ステップでの推論を言語化し、最終的な結論に至るまでの思考の流れを明確に示すのだそうだ。
この手法の大きな利点は、AIの推論プロセスが透明化されることだ。ユーザーは、AIがどのような思考過程を経て結論に達したのかを理解することができる。これにより、AIの判断の信頼性が向上し、特に複雑な問題や多段階の推論を要する課題において、より正確な結果を得ることが可能になる。確かにプロセスが提示されることで説得力はある。
さらに、CoTは数学的問題だけでなく、常識的推論や論理的思考を要する幅広い分野に適用可能だ。この汎用性により、AIの応用範囲が大きく広がるだろう。CoTは、AIに人間のような段階的思考プロセスを導入することで、複雑な問題解決能力を向上させる画期的な手法だという。
OpenAIが開発したGTP-o1(Strawberry)も、Chain-of-thought(CoT)プロンプティングの概念を進化させたAIモデルだそうだ。このモデルは、単に段階的な思考を示すだけでなく、より高度で自律的な推論能力を持つように設計されているという。
Strawberryの特徴的な点は、ユーザーからの質問に対して即座に回答するのではなく、内部で複雑な思考プロセスを展開することだ。このプロセスでは、モデルが自発的に複数の関連する質問を生成し、それらを処理して最適な回答を導き出す。この「思考」には通常数秒かかり、人間が複雑な問題を考える際の過程に似ているそうだ。
OpenAIが9月中旬にGTP-o1を発表したことで、Google は、OpenAIに遅れをとっているのではないかという懸念が生じている。少なくとも、その様に見える。しかし、GoogleのAI開発は続いており、Bloombergによれば決して遅れているわけではないということだ。
5月の開発者会議で発表された「Astra」というAIアシスタントは、スマートフォンのカメラを使って周囲の環境を解釈し、置き忘れた物の場所を特定するなど、現実世界の問題に答えることができる。これは、CoTなどの推論能力やマルチモーダル能力が生かされている。Googleは、Astraの開発を強化しており、一部の機能が年末までに「Gemini」に統合されるかもしれないそうだ。ただ、すでにそのような機能は、OpenAIのデモでも示されており、それを上回れるかが勝負となる。
GoogleのAstraプロジェクトの目的は、現実世界でもユーザーをガイドするアシスタントのような存在になることだそうだ。物体、顔、気分、布地を識別することで、周囲の環境に関する質問に答えることができる。さらに、最後に物を置いた場所を思い出すのに役立つこともある。
Google I/Oで公開されたAstraのデモでは、いくつかのモードが紹介された。例えば、「ストーリーテラー」モードでは、Geminiに様々な入力に基づいて物語を作らせたり、「ピクショナリー」モードでは、コンピュータと絵当てゲームをしたりすることができる。また、「頭韻」モードでは、AIが同じ文字で始まる単語を見つける能力を披露し、「フリーフォーム」モードでは、AIと自由に会話することができる。
あるデモでは、Astraはカメラに映った人物が持っている携帯電話を正確に識別し、その人物がサングラスをかけたり、ポーズをとったりしていることも認識した。また、人工の花を正確にチューリップと識別し、花の色がカラフルであることにも気づいた。しかし、これもOpenAIのデモと同じ程度で、言葉遊びだけではなく、どこまで日常で実用的かが問われるだろう。
GoogleとOpenAIの開発競争は激しいのだろうが、この戦いは終わりがなく、仮にAGI(汎用人工知能)が達成できたとしても、それで終わりではない。どちらかが息が絶えるまで戦い続けるのだろう。だが、そのような競争が技術の進歩を生み出す。ジョコビッチは、フェデラー、ナダルやマリーがいなければ、あそこまで強くなれなかっただろうということと同じだ。