share

公開日 

更新日 

  • 生成AIトレンド

Googleが映像生成Veo 2と画像生成Imagen 3を発表!特徴を徹底解説

2024年12月16日、Googleが映像生成AI「Veo 2」と画像生成AI「Imagen 3」を発表しました。

Veo 2は高解像度4K映像の生成に対応し、映画のワンシーンのようなリアルな表現が可能です。

一方、Imagen 3では、テキストの指示に応じて、細かな部分まで鮮明に表現し、さまざまなスタイルの画像を作成できるようになりました。

この記事では、「Veo 2」と「Imagen 3」の特徴や従来のツールとの違いを紹介します。また、他の映像・画像生成AIとの比較や同時に発表されたWhiskなども解説しているため、ぜひ参考にしてみてください。

本記事を読めば、Googleが新しく発表した内容を網羅できます。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員9,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9.7万人超え(2024年12月現在)

弊社SHIFT AIでは、生成AIを活用したAI副業の始め方や、AI人材としてキャリアアップする方法を解説する無料セミナーを開催しています。

ご興味のある方は、以下のリンクからセミナーにお申し込みください。

【無料】AI人材の一歩目!

Veo 2の特徴3選

Veo 2は、Google DeepMindが発表した映像生成AIの最新バージョンです。

従来のVeoと比較して、生成される映像の品質が大幅に向上しました。

ここでは、Veo 2の特徴を3つ紹介します。

  • 最大4K解像度での映像生成
  • 自然でリアルな動きを映像に表現
  • さまざまな視点や動きを映像に反映

それぞれの特徴について解説していきます。

最大4K解像度での映像生成

Veo 2は、最大4K解像度で映像を生成できます。

従来の映像生成AI「veo」では、解像度の限界によりディテールが粗くなる場合がありましたが、Veo 2ではその問題が解消されています。

Veo 2はフルHDの約4倍の画素数を持つため、細かなディテールや質感をよりクリアに再現することが可能です。

たとえば、ルネサンス宮殿の一室を描いたシーンでは、金の装飾が施された家具や柔らかな質感のベルベットのカーテンが、微細なディテールまで表現されています。

参照:Veo 2(Google DeepMind)

このように、従来では難しかった映画品質の映像生成ができます。

自然でリアルな動きを映像に表現

Veo 2は、AIが膨大な映像データを学習することで、より自然でリアルな動きを映像に反映できます。

光や影の動き、物体の反射、風による揺れといった細かな物理的な変化も正確に表現されます。

たとえば、アイススケートのシーンでは、スケーターが氷上を滑る際の衣装の流れや雲の中での微妙な空気の動きが自然に表現されています。

参照:Veo 2(Google DeepMind)

このように、リアルな動きが映像に加わることで、視聴者に違和感を与えない臨場感のあるシーンが作成可能です。

さまざまな視点や動きを映像に反映

Veo 2は、ドローンのような俯瞰視点、映画撮影に見られる追従カメラの動き、シーン全体をパノラマで捉える表現など、多様な視覚的効果が可能です。

従来の映像生成AIでは固定された視点や限られた動きしか表現できませんでしたが、Veo 2では視点の切り替えやカメラワークの自由度が大幅に向上しています。

たとえば、下のデモ映像では、カメラが低い位置から車を追いかけ、タイヤスモークや都市の光が流れるように映し出されることで、映像に躍動感と立体感が生まれています。

参照:Veo 2(Google DeepMind)

このように、従来の映像制作では難しかったダイナミックな映像も手軽に作成できます。

Imagen 3の特徴3選

Google DeepMindによって開発されたImagen 3は、アップデートによって従来のバージョンからさらに進化しました。

ここでは、Imagen 3の進化した特徴を3つ紹介します。

  • 入力したテキストをAIが正確に理解し反映
  • さまざまなアートスタイルに対応
  • 画像の解像度と細部表現が大幅に向上

それぞれの特徴について詳しく解説します。

入力したテキストをAIが正確に理解し反映

Imagen 3は、入力されたテキストプロンプトを高度に理解し、正確に反映する性能が大幅に向上しました。

従来のモデルでは抽象的な要素や複雑なシーンの解釈にズレが生じることがありましたが、アップデートによりAIがテキストの細かなニュアンスや要素まで正確に捉えられます。

たとえば、以下は「冬の森に座るオレンジ色のリスがヘーゼルナッツを持つ」というプロンプトで出力した画像です。

「冬の森に座るオレンジ色のリスがヘーゼルナッツを持つ」というプロンプトで出力した画像
参照:Imagen 3(Google DeepMind)

画像から、リスの毛並みや背景の雪の質感まで自然に描写され、シーン全体にリアリティと温かみが加わります。

このように、テキストだけで直感的に高度なビジュアルを生成することが可能です。

さまざまなアートスタイルに対応

Imagen 3は、フォトリアリズムや印象派、抽象画、アニメーション風、さらには高解像度の映画品質まで、幅広いアートスタイルに対応しています。

たとえば、以下は「霧深い1940年代のヨーロッパの駅で恋人たちが別れを惜しむ」というプロンプトで出力した画像です。

「霧深い1940年代のヨーロッパの駅で恋人たちが別れを惜しむ」というプロンプトで出力した画像
参照:Imagen 3(Google DeepMind)

戦時中のメランコリックな雰囲気や光の演出、服装の質感まで精細に描写され、まるで映画のワンシーンのような仕上がりの画像が生成されます。

この多様なスタイル対応により、クリエイターはプロジェクトに最適なビジュアルを手軽に選べます。

画像の解像度と細部表現が大幅に向上

Imagen 3では、解像度がさらに向上し、細部まで豊かな表現が可能です。

光と影の表現、テクスチャのリアルさ、被写界深度(ボケ効果)などの要素が精密に描写され、視覚的な完成度が大幅に高まりました。

たとえば、以下は「飛行中のハチドリに似せたイチゴが花から蜜を吸う」というプロンプトで出力した画像です。

「飛行中のハチドリに似せたイチゴが花から蜜を吸う」というプロンプトで出力した画像
参照:Imagen 3(Google DeepMind)

ハチドリの羽のぼかしやイチゴのテクスチャ、背景の美しいボケ効果が融合し、まるで高品質なマクロ写真のような画像が出力されます。

このように、高解像度と細部の描写力向上により、リアルでプロフェッショナルな品質の画像が作成できます。

Veo 2とImagen 3の性能比較

本章では、Veo 2とImagen 3の性能を、他のAIツールと比較していきます。

  • Veo 2と他の映像生成AIとの違い
  • Imagen 3と他の画像生成AIとの違い

それぞれの性能を比較していきます。

Veo 2と他の映像生成AIとの違い

Veo 2は、他の映像生成AIと比較して高精細な映像を生成できます。

「Overall preference」「Prompt Adherence」グラフ
「Overall preference」「Prompt Adherence」グラフ
出典:Veo 2(Google DeepMind)

Metaが提供するベンチマークテスト「MovieGenBench」では、Veo 2はプロンプトの忠実度と映像の質の両方でトップの評価を得ています。

このテストでは、他のモデルが5秒から10秒程度の映像生成にとどまる中、Veo 2は8秒間の高品質な映像を生成します。

そのため、Veo 2は映像生成AIにおいて、品質と表現力を大きく向上させるツールとして高く評価されています。

Imagen 3と他の画像生成AIとの違い

Imagen 3は、最新のベンチマークテスト「GenAI-Bench」において、他の主要な画像生成AIを大きく上回る結果を示しています。

Eloスコア比較グラフと勝率比較ヒートマップ
Eloスコア比較グラフと勝率比較ヒートマップ
出典:Imagen 3(Google DeepMind)

グラフからわかるように、Imagen 3の最新バージョン「Imagen3-002」はEloスコア1,115を記録し、他の画像生成AIを大きく引き離しています。

また、Imagen 3はプロンプトへの忠実度と視覚品質の両面でトップの評価を得ています。

そのため、Imagen 3は細部まで美しく、指示通りの画像生成が可能です。

現段階でVeo 2と改良されたImagen 3は使えるのか?

Imagen 3とVeo 2の展開状況

Veo 2は2024年12月17日時点で一部のユーザーに限定して提供されており、一般公開は2025年に向けて段階的に進められています。

現在、ウェイティングリストへの登録は可能ですが、それ以外の利用はまだできません。

今後の提供拡大に向けて、ウェイティングリストを登録して待っておきましょう。

一方で、Imagen 3はGoogle LabsのImageFXを通じて世界111か国で搭載されており、一般ユーザーでもアクセス可能です。

Imagen 3を利用する場合、Google LabsのImageFXにアクセスし、テキストプロンプトを入力することで高度な画像生成ができます。

現時点では、Imagen 3は日本でも利用できるAIツールとして提供されていますが、Veo 2は今後の動向に注目です。

Imagen 3とGeminiを組み合わせた「Whisk」も発表

Google Labsの新しいツールWhiskも今回Googleから発表されました。

Whiskは、テキストプロンプトなしで画像を入力し、直感的にリミックスして新しいビジュアルを生成できる画期的なAIツールです。

Geminiの視覚理解能力とImagen 3の画像生成技術を組み合わせており、入力された画像から「被写体」「シーン」「スタイル」の3要素を分解し、新たなビジュアルを作成します。

しかし、現時点ではWhiskは米国限定で提供されており、日本を含む他の地域では利用できません

一般公開の日時は明確に発表されていないため、Googleの今後の動向に注目です。

Veo 2とImagen 3で高品質な映像・画像を生成しよう!

本記事では、Googleが発表した映像生成AI「Veo 2」と画像生成AI「Imagen 3」の特徴について解説しました。

Veo 2では最大4K解像度の映像生成が可能で、リアルな動きや多様な視覚的効果のある高品質な動画が手軽に作成できます。

一方、Imagen 3はテキストプロンプトを正確に反映し、細部まで精密に描かれた画像生成に対応しています。

現段階で、Imagen 3は利用できますが、Veo 2はまだ利用できません。

そのため、「AIで高品質な映像を作成したい方」は、今後のGoogleの動向に注目しておきましょう。

弊社SHIFT AIでは、AIスキルを活かしたAI副業の始め方やキャリアアップを目指す方に向けた無料セミナーを開催しています。

「副業としてAIスキルを磨きたい」や「AI技術を仕事に活かしたい」という方は、ぜひ以下のリンクからセミナーにお申し込みください。

【無料】AI人材の一歩目!

記事を書いた人

西啓汰

大学での学びと並行して活動するフリーランスのSEO/Webライター。
研究テーマは「Music to Video」。音楽の歌詞や曲調を分析し、自動で映像を生成する仕組みの開発中。
生成AIツールを実際に触れ、体験を通じて得た知見を活かし、価値を届けるライティングを実践。
趣味は野球観戦とラジオ聴取。