アリババが動画生成AI「AtomoVideo」を発表!Soraの対抗馬になるのか比較してみた

アリババから動画生成AI「AtomoVideo」が発表されました。

Soraと同様に最長1分間の動画生成が可能で、一貫性のある高品質な動画生成が可能です。

この記事では、アリババのAtomoVideoがSoraの対抗馬になりうるのか、さまざまな視点から比較検証していきます。

目次

アリババから発表された動画生成AI「AtomoVideo」とは

アリババから発表されたAtomoVideoは、Soraと同様に最長1分間の動画生成が可能で、一貫性のある高品質な動画生成が可能です。

OpenAIはSoraを世界シミュレータと位置付けていますが、AtomoVideoではそのような発表はなく、現時点ではあくまでも動画生成AIという位置づけのようです。

SoraとAtomoVideoをリリースタイミングで比較

SoraがOpenAIから発表されたのは、2024年2月16日です。

一方、AtomoVideoが発表されたのは、2024年3月4日です。

どちらも技術的な発表があっただけで、一般公開はされていません。

Soraに関しては一般公開に向けて着々と進んでおり、現在はレッドチーム(AIの安全性や倫理性を評価する専門チーム)が実用化に向けて検討したり、一部のクリエイターが先行利用したりするなど、利用開始は目前という感じです。

Soraの一般公開時期は以下の記事で考察しています。

あわせて読みたい
OpenAI「Sora」はいつから日本で一般公開されて利用できる?事前に試すことは? 動画生成AI「Sora」に関する興奮は世界中に広がっており、「革命的な変化が起きるのではないか」との期待が高まっています。 しかし、Soraがいつから利用可能になるのか...

一方AtomoVideoに関しては、論文に研究報告として掲載されただけですので、まだ研究所の中という感じです。

アリババは2024年2月29日に、「EMO」(Emote Portrait Alive)という人物画像を喋らせたり歌わせたりする動画生成AIを発表しています。

しかし、アリババはこのプロジェクトを公開しない可能性が高いです。

Alibabaは、このプロジェクトは学術研究と効果実証のみを目的としているという。GitHubにリポジトリはあるが、公開するかどうかは不明だ。

引用元:ITmedia NEWS

そのため、AtomoVideoに関しても一般公開がいつになるのか、そもそも一般公開されるのか、この点は不透明といえます。

SoraとAtomoVideoを技術面で比較

次にSoraとAtomoVideoの違いを技術面から見てみます。

AtomoVideoの技術レポートは以下を参照しています。

参考文献:AtomoVideo: High Fidelity Image-to-Video Generation

SoraとAtomoVideoのプロンプトの違い

AtomoVideoは「High Fidelity Image-to-Video Generation」と銘打っており、あくまでも画像から動画を生成するAIモデルです。

Soraは以下の3つのプロンプトから動画生成が可能です。

  • テキスト(Text-To-Video)
  • 画像(Image-To-Video)
  • 動画(Video-To-Video)

Soraの具体的な使い方は別の記事でまとめています。

あわせて読みたい
OpenAI Soraの使い方!どんな動画が生成できる?予想される活用事例3選 YouTubeやTikTokなど動画コンテンツの需要が高まる中、動画制作をしたいが大変だし難しそうと感じている方は多いと思います。 そんな中、OpenAIから発表されたSoraは動...

SoraとAtomoVideoの技術構成の違い

AtomoVideoで重要なコンポーネントとしては以下の4つが挙げられます。

  • 事前訓練されたテキストから画像への(T2I)モデル
  • 1次元の時間畳み込みと時間的注意モジュール
  • 画像情報のエンコード(VAEによる)
  • ビデオフレーム予測のための長期ビデオ生成戦略

以下の画像が全体的なパイプラインです。

引用元:AtomoVideo: High Fidelity Image-to-Video Generation

このパイプラインには、事前訓練されたT2Iモデル、新たに追加された1次元の時間畳み込みと時間的注意モジュールが含まれ、入力チャンネルを9チャンネルに変更し、画像条件潜在とバイナリマスクを追加しています。

VAEによってエンコードされた画像情報は、与えられた画像に対するビデオの忠実度を向上させます。

さらに、クロスアテンションを通じて高レベルの画像セマンティクスを注入し、意味的な画像制御を実現しています。

ビデオフレームの予測では、GPUメモリの制約に対処しながら、反復的な方法で長いビデオを生成しています。

学習と推論では、Stable Diffusion 1.5を基盤とし、特定のデータセットを使用して訓練を行い、生成されるビデオの安定性を高めるために特定の技術を採用しています。

Soraの技術構成は別の記事で詳しくまとめています。

あわせて読みたい
OpenAI「Sora」とは?動画生成の仕組みやAPIの利用方法など技術解説 OpenAIから発表されたSoraは最長1分間の高品質な動画を生成できる動画生成AIです。 クオリティが高すぎるため、いったいどういう仕組みで生成しているのか非常に気にな...

SoraとAtomoVideoを「できること」と「できないこと」で比較

AtomoVideoで生成された動画は、どこかまだアニメーションチックというか、リアリティが低いように思います。

一方Soraの生成する動画は実物と見間違えるような動画も生成されています。

また、Soraが「Text-To-Video」、「Image-To-Video」、「Video-To-Video」とすべてに対応しているのに対し、AtomoVideoが「Image-To-Video」のみという点も留意する必要がありそうです。

まとめ:アリババが動画生成AI「AtomoVideo」を発表!Soraの対抗馬になるのか比較してみた

  • アリババから動画生成AIの「AtomoVideo」が公開
  • SoraもAtomoVideoもまだ一般公開はされていない
  • AtomoVideoは「Image-To-Video」のみ
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次