「PV数や登録者数、再生回数を…
GoogleがAI技術に進出!テキストから動画を作成する技術とは?

AIや機械学習の技術は、ここ最近急速に変化しています。テキストから画像に変換するモデルの精度が高まり、次の段階として、テキストから動画に変換するモデル開発が始まっています。
たとえば、GoogleやFacebookのMetaがテキストから動画を作成する技術を公開し、AIテクノロジーに進出してきました。今回は、GoogleやMetaなどテキストを動画にできる技術について解説していきます。
Contents
従来のtext-to-video技術の仕組み
テキストを動画に変換する「テキスト・トゥ・ビデオ(text-to-video)」モデルは数年前から存在しています。プロンプトから静止画を生成する「DALL-E」のような「テキスト・トゥ・イメージ」モデルの延長線上のようなものです。従来のテキストからビデオへの変換技術は、自然言語処理(NLP)モデルに基づいています。NLPモデルは以下の流れで映像を自動生成します。
①テキストの文脈を検出し、テキスト中の登場人物、その関係、あらゆる感情を識別
②物語の形式で書かれたスクリプト(書いて、すぐ実行できるプログラム)を生成
③スクリプトをコンピュータ・アニメーションの技術に渡し、スクリプトの細部を補い、照明やカメラアングルなどの視覚効果を加えることで、映像が自動的に生成
動画編集ソフトを使用して静止画から動画を作成するのは簡単ですが、機械学習モデルで実現させるとなると容易ではありません。静止画は画像が止まっているためテキスト情報と画像をペアにしやすく、AI画像生成の学習データとして収集することは容易です。
しかし、動画の場合ピクセルなどが時間とともにどう変化するかも予測する必要があり、時間的に連続しているテキストと分割クリップのペアを正確に組み合わせるのは難しいのです。
たとえば、「飲む」動画が以下のような4つの個別クリップに分割されてしまうと、モデルは「飲む」という正確な意味を理解できず、学習するのに混乱してしまいます。
「グラスを持つ」
「持ち上げる」
「飲む」
「置く」
そのため、学習用としてキャプション付きビデオデータを大量に集めることは非常に困難といえるでしょう。
Googleが発表したtext-to-video技術「Imagen Video」とは
2022年10月6日、GoogleのBrain Team研究者たちは「Cascaded Diffusion Model」というモデルを用いてテキストから高解像度な動画を生成するAIモデル「Imagen Video」を発表しました。
①入力したテキストのプロンプトをT5テキストエンコーダーでテキストエンコーディング
②base Video Diffusion Model が24×48の解像度、毎秒3フレームの16フレームビデオを生成
③生成されたビデオに複数の時間的超解像(TSR)と空間的超解像(SSR)モデルがアップサンプリング
④最終的に1280×768の解像度、毎秒24フレームの128フレームビデオを生成
この技術は有害コンテンツ生成などに誤って使用される可能性はゼロとは言い切れません。そのため、Googleは出力ビデオコンテンツフィルタリング適用や社内試験で入力テキストプロンプトフィルタリングなどを様々な措置を講じていますが、検出と除外が困難な社会的偏見やステレオタイプに基づくコンテンツが生成される懸念はまだ存在しています。
この問題が軽減されるまで、Googleはmagen Videoのモデルやそのソースコードを公開しないことを決定しています。
Metaが発表したText-to-Video技術「Make-A-Video」とは
2022年9月29日、Facebookの親会社である米Metaはテキストから短いビデオクリップを生成するツール「Make-A-Video」を発表しました。Make-A-Videoは、Meta AIの最近の生成技術(generative technology )研究をベースに構築されたAIシステムです。
このツールは言葉やテキスト、自由形式のスケッチから写実的なイラストや絵本のような質の高いアートな静止画を生成する「Make-A-Scene」に続くものです。ジェネレーティブAIの研究は、新しいコンテンツを迅速かつ容易に作成するツールを人々に提供することで、以下のような創造的表現を前進させています。
・わずか数文字や数行のテキストで、想像力に命を吹き込み、鮮やかな色彩、キャラクター、風景に満ちた世界にひとつだけの動画を作成することが可能
・画像から動画を作成したり、既存の動画を取り込んで似たような動画を新たに作成することも可能
・既存の画像作成のための効果的な拡散技術を使用
・基本的には純粋な視覚的且つ静的な「ノイズ除去」から、ターゲットとなるプロンプトに向かって逆方向へ働きかける
・ラベル付けされていない大量のビデオコンテンツに対して、機械学習の手法の一つである教師なし学習(人間から指図を受けずにデータそのものを調べることなど)が行われている など
これらの技術は、「システムが物理世界の動きを理解し、それを従来のテキストから画像への生成に適用できるように教師なし学習(人間から指図を受けずにデータそのものを調べることなど)の層を追加することで、従来のtext-to-videoが抱えていた問題を解決しています」とMeta CEOのMark Zuckerberg氏は、Facebookの投稿で述べています。
また、Make-A-Videoは画像モデルにLAIONデータセットのサブセットを使って訓練されており、58億枚以上のオリジナルデータセットを23億枚まで解析します。これにより、有害コンテンツなど偏った結果を生み出すフィルターなしのウェブデータを解析し、不要な部分を削ったり、必要な部分だけを取り出したり、一部を置き換えたり、並べ替えたりして、目的に適う形式に整形することを可能にしました。
Make-A-Videoは現在、64×64ピクセルの16フレームの動画を出力します。公開されている以下の作品は、それを別のAIモデルで768×768ピクセルに拡大したものになります。
画像引用:GigaziNE(https://gigazine.net/news/20220930-meta-ai-make-a-video/)
・「A dog wearing a Superhero outfit with red cape flying through the sky(赤いマントとスーパーヒーロの衣装を身に付けて空を飛ぶ犬)」
・「Hyper-realistic spaceship landing on mars(火星に着陸する超リアルな宇宙船)」
・「A teddy bear painting a portrait(肖像画を描くテディベア」
・「Unicorns running along a beach, highly detailed(浜辺を走るユニコーン、詳細に)」
細部がぼやけ、不自然なため明らかにAIが生成した感が拭えません。しかし、これが文章だけで作成されたと考えると、AIアートシステムは急速に進化しているといえるでしょう。
研究者は、「空間的・時間的解像度、テキストへの忠実度、品質など、すべての面において、Make-A-Videoはテキストでの動画生成において質的そして量的にも新しい最先端技術を確立した」と語っています。
現在まだAIモデルは公開されていませんが、このAI映像生成研究と結果をコミュニティとオープンに共有することでフィードバックを求め、責任あるAIフレームワークを使用し、さらに技術を改良・進化させ続ける予定だそうです。
中国の清華大学の研究チームが開発した「CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers」
2022年6月、中国の清華大学の研究チームは入力した簡単なテキストを基にした簡単な動画を自動生成する機械学習モデル「CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers」を開発しました。
たとえば、「A man is sking.」と入力すると男性が雪の上でスキーをしている映像を出力し、「A girl is dancing,Anime.」と入力するとアニメ調の女の子が踊っている映像を出力し、「A lion is drinking water.」と入力するとライオンが手にコップを持ち水を飲む映像が出力されます。
下記の映像サンプルは4秒間の32フレームで解像度480×480で出力されています。
画像引用:ITmediaNEWS(https://image.itmedia.co.jp/l/im/news/articles/2206/06/l_tm1636144_sl06032_1_w490.jpg#_ga=2.112283908.1293597997.1670653957-1964782700.1660636638)
CogVideoは、94億個のパラメータを持ち、540万組のテキストとビデオに対して学習しており、テキストから画像を生成するモデル「CogView2」の事前学習で得られた知識を継承しています。
そのため、従来のtext-to-video技術が抱えていたテキストと映像中の時間的な対応関係を確実にするために、マルチフレームレートによる階層的な学習を導入することで、テキストとクリップの意味をより良く整合し、複雑な意味を持つ動きに対して大幅に精度を高めることに成功しました。
まとめ
AI技術の革新と開発を続けるGoogleが、AI技術を使ってテキストから動画を作成できるようにすることで、人々が簡単に自分のアイデアを実現できる機会を増やしました。今後、GoogleやMeta、中国の清華大学の研究チームだけでなく、他からもどんどんAIによるtext-to-videoサービスが出てくるでしょう。そのうち、口で説明するよりも動画で説明したほうが早いとAI動画生成を利用するのが一般的になる未来がやってくるかもしれません。
最大限の効果を発揮する可能性を秘めたこの技術は、動画業界に革命を起こし、企業や組織に新たな可能性の領域を切り開いていくことになるでしょう。