2024年2月23日に、GoogleのDeepMindからゲーム生成AIの「Genie」が公開されました。
SoraとGenieは、どちらも世界シミュレータになり得る生成AIとして、今後の動向が注目されています。
この記事では、SoraとGenieについて現時点で分かっている情報を比較します。
GoogleのDeepMindから発表されたゲーム生成AI「Genie」とは
GoogleのDeepMindから発表されたGenieは、シンプルなプロンプトからプレイ可能な2Dプラットフォーマーゲームを即座に生成できる革新的なAIモデルです。
20万時間以上のゲームプレイ動画を学習しており、単一の画像やアイデアからスーパーマリオブラザーズのようなゲームを生成する能力を持っています。
Soraは動画生成AIで、Genieはゲーム生成AIのため、一見するとSoraとGenieは比較対象ではないように感じるかもしれません。
しかし、OpenAIがSoraを世界シミュレータと言ったように、Genieは基礎世界モデル(a foundation world model)を謳っています。
合成画像、写真、スケッチから、無限に多様なプレイ可能な(アクション制御可能な)世界を生成できる、インターネット動画から学習させた基礎世界モデル、Genieを紹介する。
引用元:Genie: Generative Interactive Environments
どちらも仮想世界を生成するAIのため、比較されているのでしょう。
SoraとGenieをリリースタイミングで比較
SoraがOpenAIから発表されたのは、2024年2月16日です。
一方、Genieが発表されたのは、2024年2月23日です。
どちらも技術的な発表があっただけで、一般公開はされていません。
Soraに関しては一般公開に向けて着々と進んでおり、現在はレッドチーム(AIの安全性や倫理性を評価する専門チーム)が実用化に向けて検討したり、一部のクリエイターが先行利用したりするなど、利用開始は目前という感じです。
Soraの一般公開時期は以下の記事で考察しています。
一方Genieに関しては、論文に研究報告として掲載されただけですので、まだ研究所の中という感じです。
一般公開に関してはSoraの方が早そうです。
SoraとGenieを技術面で比較
次にSoraとGenieの違いを技術面から見てみます。
SoraとGenieのプロンプトの違い
Genieは以下の3つのプロンプトからゲーム生成が可能です。
- テキスト
- 手書きのスケッチ
- 実世界の写真
Soraは以下の3つのプロンプトから動画生成が可能です。
- テキスト(Text-To-Video)
- 画像(Image-To-Video)
- 動画(Video-To-Video)
Soraの具体的な使い方は別の記事でまとめています。
SoraとGenieの技術構成の違い
Genieでは以下の3つの主要コンポーネントから構成されています。
- Latent Action Model
- Video Tokenizer
- Dynamics Model
Latent Action Model(LAM)はフレームのペアごとに、過去の行動から未来の行動を予測する技術です。
Video Tokenizerは、効率よくビデオ生成するために生のビデオフレームを離散的なトークンに変換します。
Dynamics Modelでは、上記の「未来の行動予測」と「離散的なトークン」を使って次のフレームを予測します。
Soraの主要コンポーネントは以下の3つです。
- 動画データを時空潜在パッチへ変換
- Diffusion Transformerによる動画生成
- DALL-E3のキャプショニングを応用
Soraの技術構成は別の記事で詳しくまとめています。
SoraとGenieを「できること」と「できないこと」で比較
SoraとGenieはどちらも文章や画像から世界を生成するAIですが、得意不得意が少し異なります。
Soraは現時点では動画生成AIという位置づけですので、生成される映像は非常にきれいですが、その映像を外から操作することはできません。
その点Genieはゲーム生成AIですので、生成されたゲーム環境で左右への移動やジャンプなどの操作が可能です。
Genieは外部からの操作という点に比重を置いているようで、ロボットの制御シミュレーションで有用性が認められた点も報告されています。
このようにゲーム環境の生成には当然Genieが向いているわけですが、映像生成の部分においてはやはり動画生成AIのSoraに軍配が上がります。
Soraは最長1分間の高品質な動画を生成できますが、Genieは16フレームのメモリに限定されるため、長い時間の動画は一貫性を保つことが困難であると報告されています。
Genieが公開されてすぐの初期段階ではMidjourneyやDALL-E3で作った高品質画像やSoraで作った高品質映像などを組み合わせながら、Genieでゲーム化するという流れになりそうです。
しかし、ネット上ではOpenAIからもゲーム生成モデルが公開されるかもしれないという噂も出ています。
Soraの技術が応用されれば、あの高品質な映像でゲームが生成できるわけですから、やはり最終的にはOpenAI一強という未来も待っているような気もします。
今後も動向に注視していきたいです。
まとめ:Googleのゲーム生成AI「Genie」がSoraの対抗馬になるのか比較してみた
- GoogleのDeepMindからゲーム生成AIの「Genie」が公開
- SoraもGenieもまだ一般公開はされていない
- Soraは動画生成AIなので映像の質で優位
- Genieはゲーム生成AIなので外部から操作が可能
コメント