動画生成AI「Veo 3.1」とは?使い方や料金、Sora 2との比較を紹介!

2025年10月16日、Googleから新たな動画生成AI「Veo 3.1」が発表されました。
Veo 3.1は、画像やテキストをもとに1分以上の高品質な動画を自動生成できるモデルです。さらに、複数の画像を入力したり、最初と最後の画像を指定したりできます。
とはいえ、最新のモデルであるため「Veo 3.1の使い方がよくわからない」「どのような動画が作れるのか知りたい」と不安や疑問を感じていませんか。
本記事では、Veo 3.1の特徴や他の動画生成AIとの違い、使い方をわかりやすく解説します。さらに、筆者がVeo 3.1で実際に生成した動画の事例も紹介します。
最新の動画生成AIを使いこなして、自分だけのオリジナル動画を作成してみましょう。

監修者
SHIFT AI代表 木内翔大
SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、AIを使った副業の始め方や、収入を得るまでのロードマップを解説するセミナーを開催しています。
また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。
「AIを使って最速で副業収入を得る方法を知りたい」という方は、ぜひセミナーに参加してみてください。
目次
Googleの動画生成AI「Veo 3.1」とは?
Veo 3.1は、Googleが提供する最新の動画生成AIモデルで、テキストや画像から1分以上の高解像度動画を自動生成できます。
従来の動画生成AIは短尺中心で、長尺化すると映像の一貫性や解像度が崩れていました。
しかし、Veo 3.1では長尺でもスタイルやキャラクター、背景の統一感を維持したまま動画を生成できます。
Veo 3.1では、以下のような動画を誰でも簡単に作成できます。
今まで短尺動画で満足できなかった方は、Veo 3.1を活用すれば、長尺かつ高品質な動画生成を楽しめます。
【何が進化したのか】Veo 3.1の特徴
ここでは、Veo 3.1の特徴を3つ紹介します。

従来の動画生成AIと異なり、Veo 3.1では「映像の統一感」と「構成の自由度」が大幅に向上しています。それぞれの特徴を詳しく見ていきましょう。
1分以上の長尺動画を生成できる
Veo 3.1では、1分を超える長尺動画を滑らかに生成でき、シーンの切れ目を感じさせない自然な物語のつながりを再現できます。
直前の映像の「最後の1秒」を基準に次のシーンを生成する仕組みのため、登場人物や背景が前後で一貫します。
以下のように、違和感のない映像の拡張が可能です。
動作や背景のつながりが自然に保たれるため、ワンカット撮影のような滑らかな映像も再現できます。
最初と最後の画像を指定できる
Veo 3.1では、最初と最後の画像を指定して、その間のシーンをAI(Gemini)が自動補完する動画を生成できます。
指定した2枚の画像をもとに、Veo 3.1が中間フレームを生成し、映像を滑らかにつなげます。
以下のように、最初と最後の画像を指定しプロンプトを入力するだけです。
Veo 3.1を使えば、わずか2枚の静止画からでもストーリー性のある動画を制作でき、企画映像やミュージックビデオの演出にも活用できます。
複数の画像から音声付き動画を生成できる
Veo 3.1では、複数の画像(最大3枚)を組み合わせて、音声付きの動画を自動生成できます。
異なる人物や背景などを含む複数の画像を入力すると、Veoがそれらを解析し、1つの連続した映像に統合します。
画像ごとの要素を自然につなげ、動きのあるシーンとして再構成できるのが特徴です。
素材が複数あっても、Veo 3.1を使えば一貫性のある音声付き動画を簡単に作成でき、企画映像やストーリームービー制作の幅が大きく広がります。
Veo 3やSora 2との違い
Veo 3.1は、従来モデル「Veo 3」や他社の動画生成AI「Sora 2」と比べて、映像の一貫性や物語の連続性が大きく向上しています。
とくに、シーンをまたいでストーリーを自然につなぐ能力やキャラクター・背景の整合性を保つ点が魅力的です。
以下に3つの主な違いをまとめました。
特徴 | Veo 3.1(Google) | Veo 3(Google) | Sora 2(OpenAI) |
---|---|---|---|
動画の長さ | 最大60秒 | 最大8〜10秒 | 最大10秒(Proで15秒) |
解像度 | 1080p | 1080p | 1080p |
プロンプトの遵守 | 高精度 (カメラ制御・スタイル指定が可能) | 基本的なテキスト/画像対応 | 高精度 (世界状態・物理挙動を再現) |
オーディオ | 会話や効果音、BGM対応 | 口の動きと音声を同期して生成 | 会話や効果音、BGM対応 |
一貫性 | シーンやキャラクターの連続性が高い | シーンごとに変化が発生 | 短尺内での一貫性に強い |
強み | 物語性と制御の自由度 | 安定した品質と軽量性 | 物理的リアリティや動作精度 |
用途 | 物語のある動画生成 | 高速試作で大量生成向け | SNS投稿やエンタメ向け |
実際に同じプロンプトを使って動画を生成して比較してみました。
A young woman walks along a sunset beach, then climbs a cliff as the wind grows stronger and waves crash below. The camera slowly pans behind her, then moves to a close-up of her face before zooming out to a wide aerial shot. The light gradually changes from golden sunset to night. She whispers softly, “From here, I can see the future.” Include realistic lip-sync, wind and ocean sounds, and gentle background music.
10~18秒(8秒):Veo 3.1
18~26秒(8秒):Veo 3
26~36秒(10秒):Sora 2
物語性のある長尺動画を作りたい場合は「Veo 3.1」、短尺でリアルな動きや自然な物理挙動を重視する場合は「Sora 2」の利用をおすすめします。
SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、昇進・転職などに役立つスキルを学んだりするためのセミナーを開催しています。
また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。
「これからAIを学びたい」「AIを使って本業・副業を効率化したい」という方は、ぜひセミナーに参加してみてください。
【無料で使える?】Veo 3.1の料金体系
Veo 3.1は、Flowを利用すれば無料で動画作成できます。ただし、無料プランでは回数制限があるため注意が必要です。
現時点(2025年10月16日)で、Veo 3.1を利用できるツールと各料金プランを以下にまとめました。
ツール名 | プラン名/月額料金(税込) | 使用できるモデル | 回数制限 |
---|---|---|---|
Gemini | ・Google AI Pro:2,900円※2 ・Google AI Ultra:36,400円 | ・Veo 3 Fast | ・Google AI Pro:3回/日 ・Google AI Ultra:5回/日 |
Flow※1 | ・無料プラン:0円 ・Google AI Pro:2,900円 ・Google AI Ultra:36,400円 | ・Veo 3 Fast ・Veo 3 Quality | ・無料プラン:約5回/月(Fast)約1回/月(Quality) ・Google AI Pro:約50回/月(Fast)約10回/月(Quality) ・Google AI Ultra:約1,250回/月(Fast)約250回/月(Quality) |
Genspark | ・Plusプラン:約4,100円 ・Proプラン:約41,000円 (為替レートによる変動あり) | ・Gemini Veo 3.1 ・Gemini Veo 3.1 Reference ・Gemini Veo 3.1 First–Last Frame | ・Plusプラン:約120回/月 ・Proプラン:約1,200回/月 |
※2:初回1か月無料期間あり
さらに、開発者向けにAPIでの利用も可能です。用途に応じて秒単位の課金体系が用意されています。
プラン名 | 1秒あたりの料金 | 詳細 |
---|---|---|
Veo 3.1 標準動画(音声付き) | $0.40(約60円) | 高品質動画+同期オーディオ生成 |
Veo 3.1 Fast(音声付き) | $0.15(約23円) | 高速生成だが品質がやや劣る |
まずはFlowの無料プランで試してみて、必要に応じて有料プランやGensparkの利用を検討してみてください。
Veo 3.1の使い方
ここでは、Veo 3.1の使い方を紹介します。Veo 3.1は以下の3つのツールで利用できます。
- GeminiでVeo 3.1を使う方法
- FlowでVeo 3.1を使う方法
- GensparkでVeo 3.1を使う方法
自分に合ったツールを選んで参考にしてください。
GeminiでVeo 3.1を使う方法
GeminiでVeo 3.1を使う手順は以下の通りです。
- Geminiにアクセスする
- 「動画」を選択し、プロンプトを入力する
- 動画を生成する
「Veoで動画生成」を選択し、プロンプトを入力する
有料プランに加入したら、画面中央の「ツール」メニューから「Veoで動画生成」を選択します。
ツールを開いたら、生成したい動画の内容をプロンプトとして入力します。日本語でも入力可能ですが、英語で入力した方が映像の精度や動作の再現度が高い傾向があります。
動画を生成する
プロンプトを入力したら、ボタンを選択して動画を生成します。生成には数分かかる場合があるため、少し待ちましょう。
現時点(2025年10月16日)では、複数の画像を入力する機能や最初と最後の画像を指定する機能はGeminiでまだ利用できません。
Googleの今後の発表を待ちましょう。
FlowでVeo 3.1を使う方法
FlowでVeo 3.1を使う手順は以下の通りです。
- Flowにアクセスする
- 動画の設定をする
- 使用したい機能を選択し、動画を生成する
- 生成した動画を拡張・保存する
動画の設定を行う
Flowにアクセスしたら、中央の「新しいプロジェクト」を選択します。
画面下のメニューからモデルの種類や出力個数、動画の向きを変更できます。
- Veo 3 Fast:短時間で動画を生成
- Veo 3 Quality:高画質な動画を生成
モデルの設定後、利用する機能を選択します。
使用したい機能を選択し、動画を生成する
Flowでは、以下の3つの機能を使って動画を生成できます。
- テキストから動画
- フレームから動画
- 動画の素材(Qualityの利用は不可)
「テキストから動画」の場合は、プロンプト(テキスト)を入力して動画を生成するだけです。
プロンプトはAI(Gemini)が自動で調整してくれるため、細かい指示をしなくても自然な映像を生成できます。
以下は実際に生成した動画です。
「フレームから動画」の場合は、最初と最後の画像を指定して、Geminiがその間を自然につなぐ動画を生成します。
左下から画像をアップロードまたは生成し、最初と最後のシーンを設定します。
生成時には、画像の数や向きを選べるほか、参照画像を入力すればNano bananaが特徴を反映して映像を作ります。
設定後、プロンプトを入力して動画を生成します。
「動画の素材」の場合は、最大3枚の画像を入力し、それぞれの要素を一連の動画としてつないだ動画を生成できます。
画像はこれまでと同様に、アップロードまたはAI生成のいずれかを選択可能です。
最大3枚の画像を入力したら、最後にプロンプトを入力して生成を開始します。
生成した動画を編集・拡張する
生成した動画は、編集やシーンの拡張、保存が可能です。
「編集」を行う場合は、画面上の「編集」を選択し、修正したい範囲をドラッグで指定します。その後、修正内容を入力すれば、AIが該当箇所のみを再生成してくれます。
ただし、編集を行うと1回分の生成回数が消費される点に注意してください。
「シーンを拡張」したい場合は、画面上の「シーンの拡張」を選択します。拡張したい箇所で「+」を選択し、新しい動画を追加します。
追加時の入力方法は、通常の動画生成と同じで、プロンプトを入力するだけで続きの映像を生成可能です。
また、拡張した動画は、削除や順番の入れ替え、保存が可能です。
なお、拡張1回につき1回分の生成回数を消費するため注意しましょう。
GensparkでVeo 3.1を使う方法
GensparkでVeo 3.1を使う手順は以下の通りです。
- Gensparkにアクセスする
- 動画の設定を行う
- 動画を生成・保存する
Gensparkにアクセスする
まずは、Gensparkの公式サイトにアクセスします。Veo 3.1を利用するためには、Gensparkにサインインまたはサインアップする必要があります。
サインアップ完了後、画面左下の設定「プランをアップグレード」から「Plus」または「Pro」の有料プランに加入してください。
動画の設定を行う
有料プランに加入したら、中央の「AI動画」を選択します。
画面下のメニューから「モデルの変更」「画像の入力」「動画の向き」「動画の秒数」の設定が可能です。
Gensparkで利用できるモデルは以下の3つです。
- Gemini Veo 3.1:テキストから直接動画を生成する標準モード
- Gemini Veo 3.1 Reference:1枚または複数の画像を参照しながら動画を生成
- Gemini Veo 3.1 First–Last Frame:最初と最後の画像を指定し、その間を自然につなぐ動画を生成
利用したいモデルを選択してプロンプトを入力してください。
動画を生成・保存する
プロンプトを入力したら、ボタンを選択して動画を生成します。生成には数分かかる場合があるため、少し待ちましょう。
以下は実際に生成された動画です。
生成が完了したら、画面下部にあるボタンから動画をダウンロードできます。
Gensparkは、シーンの拡張や細かい編集ができないため、注意が必要です。
Veo 3.1で実際に動画を生成してみた!
ここでは、実際に筆者がVeo 3.1で生成した動画の事例を4つ紹介します。
- 人物を含めた動画
- アニメキャラクターと実写背景の融合動画
- カーアクション動画
- 風景動画
今回、「Fast」と「Quality」の両方で同じプロンプトを使用して生成しましたが、筆者の体感としては現時点では大きな差は見られませんでした。
そのため、掲載している動画はすべて「Quality」モードで生成しています。Veo 3.1でどのような動画が生成できるのか参考にしてみてください。
人物を含めた動画
Veo 3.1で、人物の動きや表情の自然さをどこまで再現できるのかを検証するために、人物を含めたシネマティックな動画を生成してみました。
以下が、実際に使用したプロンプトです。今回は、夕暮れの都会でデニムジャケットを着た男性が軽快なリズムに乗ってダンスするシーンになるように生成しました。
夕暮れの都会の通りで、デニムジャケットとブラウンブーツを着た男性が石畳の上を歩いている。黄色いタクシーと人々が行き交う中、彼はリズムに乗り始め、軽快なステップで踊り出す。腕を広げ、笑顔でターンし、夕日の逆光が彼を包む。カメラはローアングルから正面を追い、最後に引きでダンスを捉える。温かみのあるシネマティックな映像。軽快なジャズ・ファンクのBGM、街のざわめきと靴音が響く。
夕日の逆光に包まれた温かみのある映像で、男性のステップやターン、笑顔の変化まで滑らかに再現されています。
Veo 3.1を活用すれば、人物の自然な動作や表情を活かした広告映像やファッションPV、プロモーションムービーなど、リアルさと映像美を両立した作品制作にも応用できます。
アニメキャラクターと実写背景の融合動画
Veo 3.1で、アニメキャラクターと実写背景の融合表現がどこまで自然に再現できるのかを検証するために、アニメ調の会話シーンを生成してみました。
以下が、実際に使用したプロンプトです。今回は、午後のカフェテラスで白いシャツの青年と虹色の瞳を持つ少女が穏やかに会話するシーンになるように生成しました。
午後の陽光が差し込むカフェのテラス席で、白いシャツの青年と虹色の瞳を持つアニメ風の少女が向かい合って笑顔で日本語の会話をしている。テーブルには和食ランチと湯飲みが置かれ、外には花が咲き誇る。彼女が楽しそうに話しかけ、彼が笑いながら答える。冗談を交わし、二人は目を合わせて微笑み合う。カメラはテーブル越しの優しいツーショットから始まり、夕方の柔らかな逆光が二人を包む。温かなBGMとカフェの生活音、自然な日本語の会話が流れる。
アニメ特有の柔らかな色彩と、実写的な光や質感がバランスよく融合しています。
Veo 3.1を活用すれば、アニメ調の映像表現やハイブリッドスタイルの作品も高い完成度で制作でき、ミュージックビデオやショートアニメ、コンセプト映像などにも応用できます。
カーアクション動画
Veo 3.1で、映画のワンシーンのようなリアルな爆発とスピード感を再現できるかを検証するために、シネマティックなカーアクション動画を生成してみました。
以下が、実際に使用したプロンプトです。今回は、夜の街でメタリックブルーのスポーツカーが爆炎を背に疾走するシーンになるように生成しました。
夜の街中、ネオンが光る通りをメタリックブルーのスポーツカーが疾走する。背後で巨大な爆発が起こり、炎と黒煙が夜空を照らす。タイヤが白煙を上げ、車体がスピンしながらドリフトで体勢を立て直す。火花と破片が飛び散り、カメラは背後から追い、次第にサイド、そして正面へと切り替わる。爆炎のオレンジがボディに反射し、ハイスピードの加速音とともに車は煙の中を突き抜け、夜の光の中へ消えていく。リアルでシネマティックなカーアクション映像。
炎のオレンジと車体の青が強く対比し、空気の揺らぎや光の反射まで緻密に再現されています。
Veo 3.1を活用すれば、アート作品のような映像からシネマティックな特撮シーンまで、映像制作の幅を大きく広げられます。
風景動画
Veo 3.1で、自然風景や光の表現がどこまでリアルに再現できるのかを検証するために、紅葉の山々を舞台にした風景動画を生成してみました。
以下が、実際に使用したプロンプトです。今回は、秋の山々を彩る紅葉と蛇行する青い川を、ドローン視点で滑らかに撮影した映像になるように生成しました。
秋の山々を彩る紅葉の森と蛇行する青い川。その上空をドローンが滑らかに飛行する。低い俯瞰から始まり、川沿いをなぞるように進みながら徐々に上昇。金色の光が木々を照らし、カメラが旋回して山全体を見渡す。やがて稜線を越え、夕陽に向かって高度を上げながら空へと抜けていく。4K HDRの自然映像のような鮮やかさで、柔らかな風音とピアノのアンビエントBGMが流れる。
川面には青空が映り込み、ドローンが谷間を縫うように飛行する動きも自然で滑らかに再現されました。
Veo 3.1を活用すれば観光PR映像や自然ドキュメンタリー、映像作品の背景など、リアリティと没入感を求める場面でも活用できます。
Veo 3.1で動画を生成するときの注意点
ここでは、Veo 3.1で動画を生成するときの注意点を3つ紹介します。

近年、動画生成AIの普及に伴い、著作権や肖像権、個人情報の扱いに関する問題が注目されています。
安全に利用するためにも、それぞれの注意点を詳しく見ていきましょう。
著作権や肖像権を侵害する動画を生成しない
Veo 3.1を使って動画を生成するときは、他者の著作権や肖像権を侵害する動画を生成してはいけません。
とくに有名人の姿をもとに映像を生成や他人の写真を本人の許可なく入力して作成する行為は、著作権や肖像権の両面で問題となる可能性があります。
Googleのポリシーでも、以下のように明確に禁止されています。
危険な行為や違法な行為など、適用される法律や規制に違反する行為に関与しないでください。次のようなコンテンツの生成または配布が該当します。
プライバシーに関する権利や知的財産権など、他者の権利を侵害している(たとえば、法律で義務付けられている同意を得ずに個人データや生体認証データを使用している)
引用:Google(生成 AIの使用禁止に関するポリシー)
Veo 3.1を安全に利用するためにも、利用前にGoogleのガイドラインを必ず確認し、権利侵害につながる行為を避けましょう。
AIで作成したと明示する
Veo 3.1に限らず生成AIを利用して動画を生成した場合は、「AIで作成した」と明示する必要があります。
AI生成動画は、実写と見分けがつかないほど高精度な表現が可能です。そのため、明示しないまま公開すると「本物の映像」と誤認されるリスクや倫理的・社会的トラブルにつながる可能性があります。
Googleの公式サイトには以下のように記載されています。
AI が生成したタイトルや説明属性などの商品データは、個別に指定したうえで、AI が生成したとしてラベル付けする必要があります。
引用:Google(公式ドキュメント)
AI生成であると明示すれば、ブランドや制作者の信頼性が高まり、ガイドライン違反によるリスクを回避できます。
個人情報や第三者のデータを入力しない
Veo 3.1に入力したデータは、AIの学習や出力に反映される場合があるため、個人情報や第三者のデータを入力してはいけません。
生成AIは入力内容をもとに動画を生成しますが、モデル改善や品質向上のために、入力したデータが保存・解析される場合があります。
とくに以下のような情報を入力しないようにしてください。
- 氏名や住所、電話番号、メールアドレスなどの個人情報
- 顔写真や動画など、特定の人物が写っているメディアデータ
- SNS投稿や社内資料、顧客データなど、第三者の所有情報
- 契約書や請求書など、機密性の高い業務関連文書
情報漏えいのリスクを防ぐためにも、プロンプトを入力した後は、個人情報を含んでいないか必ず確認するようにしましょう。
Veo 3.1で生成した動画は商用利用できる?
Veo 3.1で生成した動画は、商用利用が可能です。ただし、Googleの利用規約を遵守し、他者の権利を侵害しない範囲での利用に限られます。
実際、規約では以下のように明記されています。
本サービスの一部では、使用者によるオリジナル コンテンツの生成が許可されています。Google がそのコンテンツに対する 所有権を主張することはありません。使用者は、Google が同一または類似のコンテンツを他者に対して生成すること、および そのために必要なすべての権利を留保することに同意するものとします。
使用者は、API 利用規約に従い、生成されたコンテンツの使用 に際して適用法を遵守するものとします。生成されたコンテンツを API 呼び出しの一環として返す場合、 ユーザーに対して帰属情報を提供するよう 求められることがあります。生成されたコンテンツについては、 コードを含め、ご自身の裁量で利用してください。使用者は、自身による生成されたコンテンツの使用、および 生成されたコンテンツを共有した相手による当該コンテンツの使用について 責任を負います。
引用:Google(利用規約)
生成物の所有権は、作成者本人にあり、適法な範囲での商用利用が認められています。
安心して商用利用するためにも、事前にGoogleの利用規約を確認しておきましょう。
Veo 3.1を使って好きな動画を生成しよう!
Veo 3.1は、テキストや画像から1分以上の高品質な動画を自動生成できるモデルです。
テキスト入力だけでなく、最初と最後のシーンを指定してストーリー性のある映像を作ったり、複数の画像の要素から動画を生成したりできます。
さらに、Veo 3.1はBGMや効果音が自動で追加されるため、より臨場感のある映像表現が可能です。
本記事で紹介した3つのツールの使い方を参考に、あなたに合った方法でVeo 3.1を活用し、動画生成を楽しんでみてください。
SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、キャリアアップで年収を高めたりするノウハウをお伝えする無料セミナーを開催しています。
セミナーでは、主に以下の内容を学習できます。
- AIを使った副業の始め方・収入を得るまでのロードマップ
- おすすめの副業案件と獲得方法
- AIスキルを高めて昇進・転職などに役立てる方法
- 実際に成果を出しているロールモデルの紹介
- これから使うべきおすすめのAIツール
無料セミナーは、AI初心者〜中級者の方を対象としています。
「これからAIを学習したいけど、何から始めていいのか分からない」「AIの独学に限界を感じてきた」という方にとくにおすすめです。
また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。
完全無料で参加できるため、ご興味のある方は、ぜひセミナーに申し込んでみてください。
執筆者

西啓汰
大学での学びと並行して活動するフリーランスのSEO/Webライター。
研究テーマは「Music to Video」。音楽の歌詞や曲調を分析し、自動で映像を生成する仕組みの開発中。
生成AIツールを実際に触れ、体験を通じて得た知見を活かし、価値を届けるライティングを実践。
趣味は野球観戦とラジオ聴取。
10万人以上が受講!