画像から動画生成できるモデルのLTXVをComfyUIで使ってサムネのイラストから動画を生成してみたのでそのやり方を紹介します

ComfyUIで動画生成AIであるLTXVを試してみたので、そのときのことを解説します。

実行したときに発生したエラーの対処と、参考になるように生成した動画も紹介します。

目次

LTXVとは

ライトリックス(Lightricks)によって開発されたリアルタイムAIビデオ生成モデルであり、特に高品質な動画を迅速に生成する能力が注目されています。

このモデルは、768×512の解像度で24FPSの動画を生成し、その速度は視聴するよりも速いという特性があります。

ComfyUIでの実行

ライトリックスのGithubからダウンロードできるWorkflowをとりあえず使用しました。

エラーが発生

ComfyUIで実行したときに以下のエラー画面がでました。

エラーの文章は以下になります。

“Allocation on device”

調べたら、メモリが足りなくなるいわゆるOut of Memory(OOM)になっているということでした。

そのため、google ColaboratoryのランタイムのタイプでハードウェアアクセラレータをT4 GPUからL4 GPUに変更しました。

これで、GPU RAMは22.5GBまで使用できるようになります。

この状態で実行したら、GPU RAMは15.7GB使用していました。

ちなみに、ハードウェアアクセラレータをL4 GPUにしたときの1時間で消費するコンピューティングユニットは約2.4でした。

ダウンロードしたWorkflowからの変更点

RandomNoiseというノードの二つ目のパラメータのocntrol_after_generateの値がfixedになっていると、毎回同じものが生成されてしまうので、ここをrandomizeに変更しました。

生成にかかる時間

SamplerCustomAdvancedノードで1分くらいかかっています。Mochi 1で1時間近くかかっていたことを考えると、圧倒的に早いです。ただ、GPU RAMは15GBを超えてしまうので、注意が必要です。

生成される動画に関連するパラメータについて

以下の画像のLTXV Model Configuratorノードのパラメータを変更することで、動画の長さを長くしたり、より大きな動きがある動画にしたりすることができます。

frames_numberの値を大きくすることで動画の長さが長くなります。

frame_rateの値を大きくすることで、動きが滑らかになる気がします。

img_compressionの値は、細かい動きが良くなる気がします。値を増やすときは、42くらいまでにした方がいい気がします。それより大きくすると、ノイズが多くなって元の絵がかなりくずれてしまう感じがします。動きがあまりない動画の場合は、29くらいでいい気がします。

これらのパラメータは、いずれも値を大きくするとGPUの使用率が上がるので、メモリが溢れてしまうOOMに注意してください。

生成した動画

生成した動画と、入力した画像をサムネに使っている記事を紹介します。

その1

その2

その3

その4

その5

その6

その7

その8

その9

その10

その11

その12

その13

その14

この記事のサムネ。

動画の長さを延ばしています。

まとめ

15GBのGPU RAMではOOMになってしまってたので、ColabのハードウェアアクセラレータをL4 GPUに変更しました。

動画生成は1分くらいでできてしまうので、爆速です。

今回は画像から動画生成をしましたが、テキストからの生成もできるので今度試してみたいです。

動画生成AIに関する他の記事

LTXVでテキストから動画生成する記事

Mochi 1の記事

商用利用に注意が必要なモデル

FramePackの記事

Wan 2.1の記事

FramePackのLoRAの使い方

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次