動画生成型AI

by Shogo

昨年からの話題はAIテクノロジーばかりとなった。あれほど騒がれたメタバースもNFTもどこ消えてしまった。Metaでさえメタバース開発の人員を縮小したとニュースになっていた。2022年夏にはMidjourneyやDALL-e2が簡単な説明文から画像生成する音が広く知られるようになった。しかも、その画像が美術コンテストで賞までとった。

そして11月には大きな話題となったChatGPTが公開され、複雑な質問への応答、文章の作成、コンピューター・コードの生成、翻訳や要約を行う能力で大きな話題となった。そして今年の3月には、ChatGPTは最新版のGPT-4にアップグレードされ、画像に対応できるようになっている。そのGPT-4のChatGPTのデモンストレーションでは司法試験を突破しているのも大きな驚きだ。

ChatGPTやDALL-e2を開発しているオープンAIにはMicrosoftが巨額の投資を行って、関連会社化している。Microsoftは自社の製品やサービスにChatGPTの技術を組み込んでブラウザのBingやMicrosoft Office製品などでAIを自由に使えるようになった。AI技術は、今までのようにサービスや製品の裏で動いているだけでなく。もはや身の回りに見える形となった。

私の使っているGoogle Chromeもサードパーティーの機能拡張を使って、検索をする際には、GPT- 3.5であるが、通常の検索と同時にChatGPTの回答を表示できるようになっている。検索や文章の作成にはAIを使えるのが当たり前になり、多くの企業がAIを使ったサービスを公開している。

画像生成型AIのMidjourneyやDALL-e2も広く普及して、広告会社などもアイディア開発に実用化しているし、広告コピーの作成でも同様だ。

そして、新たな脚光を浴びているのは動画生成型AIだ。ニューヨークのベンチャー企業のRunaway AIが公開したシステムは簡単な説明を入力すると、それに対応した動画が生成される。例えば、静かな森の中を流れる川のような普通のイメージもあれば、タイムズスクエアで自転車に乗る犬のようなありえない動画も簡単に作ることができる。

画像生成型AIが出たときに動画まで思いが及ばなかった。だが、考えてみれば動画は1秒間に24とか30の静止画でできている。この画像を生成すれば、動画もすぐにできてしまう。

この動画生成型AIは、ChatGPTなどの文章生成型AIと同じように、インターネット上にある多くのデジタルデータを読み込んで学習する。RunawayAIの場合には、動画を作成するために、写真やビデオとそれを説明するキャプションを読み込んで、それをデータベース化している。そして、指示に基づいてそのデータベースから適切なものを組み合わせて、新たに必要な数の静止画を生成し、それを再生すると動画になる。

このような動画生成型AIについては、すでにGoogleやMetaも、技術のデモンストレーションを行っている。しかしながら、そのような技術が悪用されて、ネット上にフェイクニュースや偽情報が氾濫することを恐れているために、一般にはその技術を提供していない。

RunawayAIがその技術を提供するのは、悪用されるリスクはあるにせよ、今後の映画制作などを含む動画の作成に有用なツールになると言うことを考えて踏み切っているようだ。RunawayAIはGoogleやMetaのような大企業と違って、そのようなリスクをあえてとっていると言うことだろう。

当然、様々な問題が予想される。画像生成型AIについては、最近でも話題になった事例がいくつかある。シカゴの若者が白いパファーコートを着たフランシスコ法王の画像を公開して大きな話題になった。あまりにも鮮明でよくできているので本物かと見間違うが、その画像はMidjourneyで作られたものだった、さらに、トランプ前大統領の逮捕の画像と言うのもある。逮捕の瞬間や、その後のオレンジ色の囚人服を着ている画像なども本物かと思うような鮮明な出来栄えだ。

動画や画像がこのように簡単に作れることになると、インターネット上での情報のどれが本物でどれが偽物なのか見分けがつかなくなる。しかしながら、交通事故で死者が出るリスクを恐れて車の販売をやめるかと言う話とならないように、生成型AIの技術は、今後、様々な場面で使える事は確実であり、フェイクニュースなどのリスクを恐れて技術を開発すると言うことにはならない方が良いと考えている。最近、イーロン・マスクなどの著名人がAIの開発を六ヶ月間休止するように呼びかけたが、大きな川の流れに堰をするようなもので、全く意味がない。

You may also like

Leave a Comment

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください