アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

2024年3月6日

アリババから動画生成AI「AtomoVideo」が発表されました。

Soraと同様に最長1分間の動画生成が可能で、一貫性のある高品質な動画生成が可能です。

この記事では、アリババのAtomoVideoがSoraの対抗馬になりうるのか、さまざまな視点から比較検証していきます。

アリババから発表された動画生成AI「AtomoVideo」とは

アリババから発表されたAtomoVideoは、Soraと同様に最長1分間の動画生成が可能で、一貫性のある高品質な動画生成が可能です。

OpenAIはSoraを世界シミュレータと位置付けていますが、AtomoVideoではそのような発表はなく、現時点ではあくまでも動画生成AIという位置づけのようです。

SoraとAtomoVideoをリリースタイミングで比較

SoraがOpenAIから発表されたのは、2024年2月16日です。

一方、AtomoVideoが発表されたのは、2024年3月4日です。

どちらも技術的な発表があっただけで、一般公開はされていません。

Soraに関しては一般公開に向けて着々と進んでおり、現在はレッドチーム（AIの安全性や倫理性を評価する専門チーム）が実用化に向けて検討したり、一部のクリエイターが先行利用したりするなど、利用開始は目前という感じです。

Soraの一般公開時期は以下の記事で考察しています。

一方AtomoVideoに関しては、論文に研究報告として掲載されただけですので、まだ研究所の中という感じです。

アリババは2024年2月29日に、「EMO」（Emote Portrait Alive）という人物画像を喋らせたり歌わせたりする動画生成AIを発表しています。

しかし、アリババはこのプロジェクトを公開しない可能性が高いです。

Alibabaは、このプロジェクトは学術研究と効果実証のみを目的としているという。GitHubにリポジトリはあるが、公開するかどうかは不明だ。
引用元：ITmedia NEWS

そのため、AtomoVideoに関しても一般公開がいつになるのか、そもそも一般公開されるのか、この点は不透明といえます。

SoraとAtomoVideoを技術面で比較

次にSoraとAtomoVideoの違いを技術面から見てみます。

AtomoVideoの技術レポートは以下を参照しています。

参考文献：AtomoVideo: High Fidelity Image-to-Video Generation

SoraとAtomoVideoのプロンプトの違い

AtomoVideoは「High Fidelity Image-to-Video Generation」と銘打っており、あくまでも画像から動画を生成するAIモデルです。

Alibaba presents AtomoVideo: High Fidelity Image-to-Video Generation

proj: https://t.co/BDs2fLxggM
abs: https://t.co/UeeHnXO7tZ pic.twitter.com/Ey4QQhrWbs
— Aran Komatsuzaki (@arankomatsuzaki) March 5, 2024

Soraは以下の3つのプロンプトから動画生成が可能です。

テキスト（Text-To-Video）
画像（Image-To-Video）
動画（Video-To-Video）

Soraの具体的な使い方は別の記事でまとめています。

SoraとAtomoVideoの技術構成の違い

AtomoVideoで重要なコンポーネントとしては以下の4つが挙げられます。

事前訓練されたテキストから画像への（T2I）モデル
1次元の時間畳み込みと時間的注意モジュール
画像情報のエンコード（VAEによる）
ビデオフレーム予測のための長期ビデオ生成戦略

以下の画像が全体的なパイプラインです。

引用元：AtomoVideo: High Fidelity Image-to-Video Generation

このパイプラインには、事前訓練されたT2Iモデル、新たに追加された1次元の時間畳み込みと時間的注意モジュールが含まれ、入力チャンネルを9チャンネルに変更し、画像条件潜在とバイナリマスクを追加しています。

VAEによってエンコードされた画像情報は、与えられた画像に対するビデオの忠実度を向上させます。

さらに、クロスアテンションを通じて高レベルの画像セマンティクスを注入し、意味的な画像制御を実現しています。

ビデオフレームの予測では、GPUメモリの制約に対処しながら、反復的な方法で長いビデオを生成しています。

学習と推論では、Stable Diffusion 1.5を基盤とし、特定のデータセットを使用して訓練を行い、生成されるビデオの安定性を高めるために特定の技術を採用しています。

Soraの技術構成は別の記事で詳しくまとめています。

SoraとAtomoVideoを「できること」と「できないこと」で比較

AtomoVideoで生成された動画は、どこかまだアニメーションチックというか、リアリティが低いように思います。

Alibaba presents AtomoVideo

High Fidelity Image-to-Video Generation

Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation pic.twitter.com/6avjfLAxaD
— AK (@_akhaliq) March 5, 2024

一方Soraの生成する動画は実物と見間違えるような動画も生成されています。

"fly through tour of a museum with many paintings and sculptures and beautiful works of art in all styles"

Video generated by #Sora pic.twitter.com/SNr9dQZe5V
— Tim Brooks (@_tim_brooks) March 2, 2024

また、Soraが「Text-To-Video」、「Image-To-Video」、「Video-To-Video」とすべてに対応しているのに対し、AtomoVideoが「Image-To-Video」のみという点も留意する必要がありそうです。

まとめ：アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

アリババから動画生成AIの「AtomoVideo」が公開
SoraもAtomoVideoもまだ一般公開はされていない
AtomoVideoは「Image-To-Video」のみ

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

Soraクエスト

アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

アリババから発表された動画生成AI「AtomoVideo」とは

SoraとAtomoVideoをリリースタイミングで比較

SoraとAtomoVideoを技術面で比較

SoraとAtomoVideoのプロンプトの違い

SoraとAtomoVideoの技術構成の違い

SoraとAtomoVideoを「できること」と「できないこと」で比較

まとめ：アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

この記事を書いた人

コメント

コメントするコメントをキャンセル

アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

アリババから発表された動画生成AI「AtomoVideo」とは

SoraとAtomoVideoをリリースタイミングで比較

SoraとAtomoVideoを技術面で比較

SoraとAtomoVideoのプロンプトの違い

SoraとAtomoVideoの技術構成の違い

SoraとAtomoVideoを「できること」と「できないこと」で比較

まとめ：アリババが動画生成AI「AtomoVideo」を発表！Soraの対抗馬になるのか比較してみた

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル