画像から動画生成できるモデルのLTXVをComfyUIで使ってサムネのイラストから動画を生成してみました

ComfyUIで動画生成AIであるLTXVを試してみたので、そのときのことを解説します。

実行したときに発生したエラーの対処と、参考になるように生成した動画も紹介します。

目次

LTXVとは

ライトリックス(Lightricks)によって開発されたリアルタイムAIビデオ生成モデルであり、特に高品質な動画を迅速に生成する能力が注目されています。

このモデルは、768×512の解像度で24FPSの動画を生成し、その速度は視聴するよりも速いという特性があります。

ComfyUIでの実行

ライトリックスのGithubからダウンロードできるWorkflowをとりあえず使用しました。

エラーが発生

ComfyUIで実行したときに以下のエラー画面がでました。

エラーの文章は以下になります。

“Allocation on device”

調べたら、メモリが足りなくなるいわゆるOut of Memory(OOM)になっているということでした。

そのため、google ColaboratoryのランタイムのタイプでハードウェアアクセラレータをT4 GPUからL4 GPUに変更しました。

これで、GPU RAMは22.5GBまで使用できるようになります。

この状態で実行したら、GPU RAMは15.7GB使用していました。

ちなみに、ハードウェアアクセラレータをL4 GPUにしたときの1時間で消費するコンピューティングユニットは約2.4でした。

ダウンロードしたWorkflowからの変更点

RandomNoiseというノードの二つ目のパラメータのocntrol_after_generateの値がfixedになっていると、毎回同じものが生成されてしまうので、ここをrandomizeに変更しました。

生成にかかる時間

SamplerCustomAdvancedノードで1分くらいかかっています。Mochi 1で1時間近くかかっていたことを考えると、圧倒的に早いです。ただ、GPU RAMは15GBを超えてしまうので、注意が必要です。

生成される動画に関連するパラメータについて

以下の画像のLTXV Model Configuratorノードのパラメータを変更することで、動画の長さを長くしたり、より大きな動きがある動画にしたりすることができます。

frames_numberの値を大きくすることで動画の長さが長くなります。

frame_rateの値を大きくすることで、動きが滑らかになる気がします。

img_compressionの値は、細かい動きが良くなる気がします。値を増やすときは、42くらいまでにした方がいい気がします。それより大きくすると、ノイズが多くなって元の絵がかなりくずれてしまう感じがします。動きがあまりない動画の場合は、29くらいでいい気がします。

これらのパラメータは、いずれも値を大きくするとGPUの使用率が上がるので、メモリが溢れてしまうOOMに注意してください。

生成した動画

生成した動画と、入力した画像をサムネに使っている記事を紹介します。

その1

その2

その3

その4

その5

その6

その7

その8

その9

その10

その11

その12

その13

まとめ

15GBのGPU RAMではOOMになってしまってたので、ColabのハードウェアアクセラレータをL4 GPUに変更しました。

動画生成は1分くらいでできてしまうので、爆速です。

今回は画像から動画生成をしましたが、テキストからの生成もできるので今度試してみたいです。

動画生成AIに関する他の記事

LTXVでテキストから動画生成する記事

Mochi 1の記事

商用利用に注意が必要なモデル

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次