1枚の画像から3D世界を生成、Google DeepMindの新AI「Genie 2」が切り開く可能性

2024年12月4日、Google DeepMindが新AIモデル「Genie 2（ジーニー・ツー）」を発表しました。

Genie 2は、1枚の写真やイラストから、操作可能な3D世界を作り出せる画期的なモデルです。

本記事では、Genie 2の概要や革新的な機能、実用的な活用可能性について詳しく解説します。

この技術革新により、ゲーム開発やAI研究の新たな可能性が広がり、AI技術の進歩がもたらす未来の可能性を感じられることでしょう。

（株）SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ（会員9,000人超）を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9.7万人超え（2024年12月現在）

弊社SHIFT AIでは、AIを活用した副業の始め方や、AI人材としてキャリアアップする方法を解説する無料セミナーを開催しています。

興味のある方は、ぜひ以下のリンクからセミナーにお申し込みください。

【無料】AI人材の一歩目！

セミナーの詳細を確認する

Genie 2の概要

DeepMindの新AI「Genie 2」
参照：Genie 2: A large-scale foundation world model（Google DeepMind）

画像から操作可能な3D環境を生成できるAIモデル「Genie 2」。

このモデルは、1枚の写真やイラストを入力するだけで3D環境を生成し、人間やAIがキーボードとマウスで自由に動き回れる世界を作り出せます。

現段階では研究の初期段階で、一般にリリースされていないため、今後の進展に期待が高まるAIモデルです。

基本機能

Genie 2は、生成された3D環境で、ジャンプや泳ぎなどの多様なアクションを実行できます。

Genie 2が作り出した3D世界は、最長で1分間（ほとんどの場合は10〜20秒程度）、世界の見た目や物理法則などが崩れることなく維持されます。その時間内であればプレイヤーは構築した3D世界を自由に動き回れるのです。

また、一人称視点や三人称視点、アイソメトリック（斜め上から見下ろす）視点など、多様な視点での環境生成に対応しています。

自分とソックリなキャラクターを操作できれば、現実にはありえない世界を走り回ったり、実際にはできない動きをできたりしてしまうでしょう。

技術的な特徴

Genie 2は大規模な動画データセットで訓練された自己回帰型潜在拡散モデルがベースです。このベースをもとに、リアルタイムレンダリング（入力された画像をもとに3D環境をリアルタイムで構築する）を実行します。

Genie 2のベース「自己回帰型潜在拡散モデル」の仕組み
参照：Genie 2: A large-scale foundation world model（Google DeepMind）

また、Genie 2には、他にも以下の技術的特徴があります。

アクション・コントロール：キャラクターを識別してアクションを正しく実行
反実仮想の生成：同じスタート地点から異なる展開を生成
ロングホライゾン・メモリー：視界から外れた環境を記憶・再現する機能
物理シミュレーション：基本的な物理法則を処理する機能
キャラクター制御：複雑なキャラクターアニメーションやNPCとの相互作用を実現する機能
リアルタイムレンダリング：720p解像度の3D環境をリアルタイムで構築・表示する機能
視覚効果処理：照明効果・反射・煙の挙動などをリアルタイムでレンダリングする機能
現実世界から生成：現実の世界にある自然現象をモデル化
ラピッドプロトタイピング：AIの動作や生成した環境を効率的に研究可能

特筆すべき機能は「ロングホライゾン・メモリー」です。ゲーム画面のように、視界から外れた環境を記憶し、再び視界に入った際に正確に再現できます。

重力・水・煙・物体の衝突判定などの物理的な効果の表現や、複雑なキャラクターアニメーションやNPCとの相互作用も実現します。

また、Genie 2は、AIを用いた研究や開発をさらに進歩させる可能性があります。

製品のチェック段階において、はじめは粘土や木を利用し、現代では3Dプリンタを用いるようになりました。そして3Dプリンタの登場でチェック作業の時間やコストを削減できていました。

しかしGenie 2の登場により、より迅速かつ効率的に製品チェックができるようになるため、高機能で創造的な開発が行えるようになるでしょう。

Genie 2の活用可能性

Genie 2の活用範囲は、研究開発から実用的なアプリケーションまで多岐にわたります。現実世界では危険を伴う実験や調査も、安全な仮想環境で実施できるのです。

ゲーム開発の分野では、開発者やアーティストが新しいアイデアを素早くプロトタイピングできるツールとして期待されています。

従来の開発プロセスと比べて、環境構築にかかる時間とコストを大幅に削減できる可能性があるため、開発者はゲームの改良に多くの時間を費やせるようになるでしょう。

さらには、ロボットが未知の地形を移動したり、新しい方法でオブジェクトと相互作用したりする学習を、Genie 2が生成した環境で実行可能です。

DeepMindはすでにエージェント「SIMA」※をGenie 2と統合し、生成された環境内でコマンドに従って行動させることに成功しています。
※SIMA：Google DeepMindが開発した自律的なAIシステム

具体的には、Genie 2で「青と赤の2つのドアがある3D環境」を構築し、SIMAにそれぞれのドアを開けるように指示した結果、SIMAは指示どおり青・赤それぞれのドアを開けたのです。

この点からもわかるとおり、Genie 2は単なるゲーム開発ツールを超えて、AIの研究開発や実用的なアプリケーションの創造に貢献する可能性を秘めています。

現在は研究開発の初期段階にありますが、将来的にはより広範な分野での活用が期待できるでしょう。

Google DeepMindとは

Google DeepMindは、Googleの先進的なAI研究開発部門です。2023年4月20日、GoogleはDeepMindとGoogle ResearchのAI開発チームBrainを統合し、新組織「Google DeepMind」を設立しました。

DeepMindは2010年に英ロンドンで設立され、2014年にGoogleが買収。一方、Google Brainは2011年にGoogleのX（ムーンショット工場）で始まりました。

両チームは過去10年間で多くの成果を上げています。DeepMindは囲碁AI「AlphaGo」やタンパク質構造予測AI「AlphaFold」を開発し、Google Brainは機械翻訳や画像識別の学習、深層学習モデル「Transformer」を開発しました。

Google DeepMindのCEOには、DeepMindの共同創業者であるDemis Hassabis氏が就任。Google BrainのJeff Dean氏は、Google ResearchとGoogle DeepMindのチーフサイエンティストとして、AI研究の将来の方向性を定める役割を担います。