久しぶりに凄いものを見た。OpenAIの映像生成AIシステム「Sora」が作り出した映像だ。まだ最長1分だが、シンプルなテキスト説明からリアルで高品質な動画を生成することができる。
OpenAIのプロンプトを日本語訳をすると、「美しい雪の東京の街が賑やか。美しい雪の天気を楽しみ、近くの露店で買い物をする何人かの人々を追いながら、カメラは賑やかな街の通りを移動する。華やかな桜の花びらが、雪の結晶と一緒に風に舞っている。」
それが、驚くべき映像になる。隅田川を思い出させる桜の歩道をカップルが歩いている。文字は、例によって意味不明だし、高速道路がそばを通っていて、よく見ると不思議な世界だが、東京と聞いて想像できるような映像にはなっている。
映像が生成できるAIシステムは、これまでもRunway MLなどがあるが、Soraのクオリティは、これまでのシステムを遥かに凌駕しているように見える。これは、自分で触ってみただけなので、同じようにできるかどうかは不明だが、少なくとも、例示されているプロンプトから、驚くほど写実的な映像を生成している。
Soraという名前は、日本語の「空」にちなんでいるそうだ。OpenAIは、「無限の創造的可能性を連想させる」という理由でこの名前を選んだという。
Soraが、もう少し長い映像が作るれるようになると、様々なスタイルやコンセプトの映像を作成することができるようになる。ショートフィルム、製品デモ、ミュージックビデオ、あるいはアニメーションまで、何でも作れるようになる。
Soraは、プロンプトを理解し、映像による世界を構築することで、魅力的な映像に仕上げている。「雪が降る東京の街並み」というようなコンセプトを説明すると、Soraは動く車や歩行者、散りゆく桜のような微妙な視覚的ディテールを含む映像を作成している。しかも、Soraは映像の構成を理解し、複数のカット、カメラの動き、その他のストーリーテリングテクニックを自動的に生成して、シネマティックな映像に仕上げる。
Soraは、DALL-EとGPTモデルをベースに構築されており、拡散モデルとトランスフォーマーの適応性を組み合わせていると、OpenAIは説明している。
「Soraは拡散モデルであり、静止ノイズのようなものから動画を生成し、何段階にもわたってノイズを除去しながら徐々に変換していく」そうだ。
ランダムなノイズから、AIが学習した映像のデータの利用して、プロントで示された指示合わせて、ノイズを取り除き、最終的に映像が生み出されると説明されても、あまり意味はわからない。
拡散モデルは、DALL-Eのような画像生成からSoraのような動画生成に至るまで、様々な分野で応用されているそうだが、そうだが、素人には理解が難しいので、ここはスルーする。。
Soraのようなツールは、最終的には素晴らしい映像を制作する障壁やコストを下げ、アイデアさえあれば誰でも高品質の映像を制作できるようになる。今後は、映画や広告などの制作方法を変える可能性があり、映像のニーズが多い現在、多くの分野で映像メディアを変革する可能性がある。
だが、問題は、偽情報とディープフェイクだ。 OpenAIはSoraのリリースに慎重だそうだ。この技術を悪用すると、実写と見分けがつかない映像が、悪意を持って生成される可能性があるからだ。
OpenAIは、偽のビデオコンテンツの潜在的な危険性を認識していて、Soraのリリースには、安全対策が含まれているようだ。まず、Soraにより生成された映像には電子透かしラベリングが埋め込まれ、識別できるようにする。また、OpenAIは、外部の研究者、映画制作者、政策立案者と協力し、潜在的なリスクを継続的に分析し、対処していく予定だそうだが、これは具体的に何をするのかわからない。プロンプトの悪意を読み取る方法だろうか。
現時点では、Soraはまだ研究段階だが、このテクノロジーは映像制作における可能性を示している。リスクや問題の対応が十分に取ることができれば、映像制作の世界は大きく変わるだろう。