ガラパゴス化という言葉があるよ…
躍る二次元動画?AI画像生成を応用したAI動画作成前線状況を紹介!

AIは画像生成だけでなく、動画作成も技術力をあげています。文章を入力するだけで動画を作成できる技術や、AI画像生成でできた絵をつなぎ合わせて動画にする技術など、その進化は目まぐるしいです。今回はAI動画作成について解説します。
Contents
テキストをオンラインで動画にするAI搭載ソリューション「Wave.video」
AI搭載ソリューション「Wave.video」はブログ記事やテキストを入力することで、オンライン上で迅速かつ簡単に動画に変換できるサービスです。
画像引用:Wave.video(https://wave.video/ja/tools/video-marketing/turn-text-into-video)
全て英語で表記されていますが、3つの文を入力することでAIがその関連性などから動画を作成してくれます。しかし、出来は動画というよりそれっぽい画像を並べたパワーポイントのように感じます。
立ち絵が躍る?「Collaborative Neural Rendering using Anime Character Sheets」
Collaborative Neural Rendering using Anime Character Sheetsとは、キャラクターの異なる角度からのキャラクターシートを4枚入力してポーズをレンダリングすることで、ダンス動画が自動作成できる、中国のMegvii Incと武漢大学の研究チームが開発した学習モデルです。多様なポーズや外見の手描き合成画像を含む70万枚以上のキャラクターシートデータセットを収集し、学習させています。
画像引用:アニメ キャラクター シートを使用した 共同ニューラル レンダリング(https://transpchan.github.io/live3d/)
画像引用:ITmediaNEWS(https://image.itmedia.co.jp/l/im/news/articles/2208/05/l_tm1636144_sl08041_2_w490.jpg#_ga=2.109788677.1293597997.1670653957-1964782700.1660636638)
キャラクターシートとは、キャラクターデザインを示すために、三面図などキャラクターの立ち絵を複数の視点から観察した画像集のことです。
Collaborative Neural Rendering(CoNR)はUVテクスチャマッピングを必要としないように、コンパクトなランドマークで表現できる「Ultra-Dense Pose」(UDP)を使用することで、キャラクターシートにある少数枚の異なる角度からの立ち絵からのUDP表現に変換し、合わせてエンコードを行うと、下記リンクのような動画ができあがります。
https://transpchan.github.io/live3d/
文字から不自然が少ない動画作成?「CogVideo」
CogVideoは中国の研究チームが開発したテキストから動画生成を可能にした最大かつ最初のオープンソースモデルです。94億個のパラメータを持ち、540万組のテキストと動画に対して事前学習したテキスト-画像生成モデルCogView2をテキスト-動画生成モデルに継承することで効率的な学習を実現しました。
従来のテキスト-動画生成は、直進する車などの規則的な動きや喋っているランダムな唇の動きなどを生成することは可能ですが、ライオンが水を飲んでいるといったテキストでは失敗してしまいます。なぜなら、「ライオンが水を飲んでいる」というテキスト-動画を生成するには、以下のような動作を正しく生成するためにAIが「飲む」という動作を性格に理解する必要があるからです。
①ライオンがグラスに唇を近づける
②水を飲む
③グラスを置く
また、学習のために動画を固定フレーム数の多数のクリップに分割するため、動画中のテキストとの時間的な対応関係が崩れてしまうという問題が発生していました。そのため、「飲む」というテキストから「グラスを持つ」「持ち上げる」「飲む」「置く」といった4つのクリップに分割されてしまうと、AIが「飲む」という動作の正確な意味を学習することが難しくなってしまいます。
これに対しCogVideoは2つの工夫を行うことで、違和感のない高解像度な動画を生成することに成功しました。
・より適切なテキストとクリップのペアの位置関係を得るためのマルチフレームレートによる階層的な学習手法であるMulti-frame-rate Hierarchical Trainingの導入
・事前学習したテキスト-画像生成モデルCogView2の知識を継承するためのDual-channel Attention
しかし、モデルの大規模化やGPUメモリの制限により入力シーケンスの長さに制限があるなど、まだいくつかの課題点があるため、今後の研究による改善が期待されているそうです。
AI画像生成の絵から高クオリティな動画を作成する「852話氏」
自作MMDを踊らせてみた動画から画像を1枚1枚連番出力し、NovelAIでけいおん風に絵柄を寄せるプロンプトを指定して連番出力することで、852話氏は高クオリティな動画作成に成功しています。
多人数手書き動画風感が拭えなかった最初の動画から、試行錯誤を重ねてアニメ動画になっていくのは見ていて感動すら覚えます。その過程をnoteに記載されているので、興味がある方はぜひリンク先へ行ってみてください。
https://note.com/852wa/n/neb2341704505
現在、852話氏は自作の「8528Diffuison」を公開運用しており、下記のようななめらかで美しい動画を作成されています。
自作のMMDモデルの女の子にマーシャルマキシマイザーを踊ってもらい、自作のAIモデル #8528d で動画の平面化。ckptなのでi2i自動化が出来て作業高速化。上がMMD下がAI出力。
かわいい。 pic.twitter.com/QR9CaJiYR6— 852話 (@8co28) December 2, 2022
AI画像生成を応用して実際に動画を作ってみた
標準でプロンプトが英語に翻訳されるような機能がついているので、日本語で文章を入力しても高精度な画像生成が可能な「にじジャーニー」が2022年11月にβテストを行いました。これにより、難しい英文を考えることなく日本語の単語を入力するだけで高品質で美麗な画像を簡単に手に入れることが可能になりました。
限定無料期間は終了してしまいましたが、たくさんのかわいい独創的なポメラニアンの画像が生成できて大満足です。こんなに簡単にAI画像生成ができるようになったのだから、気に入った絵を作り出し、動画を作成することもできます。
実際に、にじジャーニーで画像素材を作成し、自分で動画編集することで簡単なショート動画を作成してみました。
中々理想の腕組みをしてくれないので、「涼宮ハルヒ」とアニメキャラクターの名前を入れることで、セーラー服に腕組みをする女の子が生まれました。その内、右下の子を選び、画像のアップスケールを行います。
背景も髪型も変わってるというツッコミは置いておいて、これはこれで雰囲気があってかわいいです。しかし全体的にぼやけているので女の子だけ切り抜いて塗り直し、背景と人物に分けることにしました。絵の雰囲気もグリーンバックが何故か路地裏になってしまい少しホラーチックなので、ホラー動画でいくことにしました。
せっかく動画を作るなら女の子の目をパチパチさせたいので、顔の部分だけをパーツ分けします。塗り足す部分やぼやけている部分を修正していきます。パーツ分け作業は大変ですが、すでに土台があるので修正作業を時短できました。
ゼロから作成するよりも短時間でかわいい女の子が描けました。
AI画像生成は腕や手、指、足などを正確に生成するのが苦手です。太ももの間を少し開けたり、靴下と同化した靴に光沢を入れたり、胸の下で腕を組むことで膨らみを増やしたり、と元々ある絵へ少し書き加えるだけで絵らしい絵に修正できるのが魅力的です。
次に、Filmoraという動画編集ソフトを使って、BGMや効果音などを付け足してできた動画がこちらになります。
にじジャーニーくんで絵を描いてもらって、それに手を加えて動画にしました^^がんばったので見てくださると嬉しい^^
ゾンビポメラニアンちゃんです♥笑ってくれると嬉しい(笑)#nijijourny #にじジャーニー https://t.co/SxbCnqDnGg— 赤堀堂馬@セルフバ美肉とか色々画策中 (@doumaakahori) November 30, 2022
ゾンビポメラニアンもAI画像生成で作成しました。背景をイラストツールの消しゴムで消し、透過素材にすることで、動画素材として利用しています。
このように、ちょっとした動画を作りたい場合でも、AI画像生成は素材の元となるものを提供してくれるため、絵が描けない人でも手書き風の動画を作成することができるのです。
まとめ
AI動画自動作成はAI画像生成のように単語を入力するだけですっと完成度の高い作品を出してくれるレベルではありませんが、それでも徐々にレベルアップしつつあります。動画の連番画像をAI画像生成でイラストにして応用することで、なめらかな動画作成する技術も、あともう少しで色んな人ができる時代になるかもしれません。