share

公開日 

更新日 

  • Gemini

【動画も読込可能!】Gemini 1.5 Proとは?使い方や料金を解説

Googleの「Gemini 1.5 Pro」は、全AIモデルの中でもトップレベルの性能を誇るAIモデルです。また、Gemini 1.5 Proは高性能なだけでなく、テキスト以外(画像・動画・音声)を認識する能力も優れています。

他の生成AIとは一線を画すGemini 1.5 Proですが、特徴や使い方を知らなければ業務効率化は叶いません。

本記事では、Gemini 1.5 Proの特徴や使い方、料金体系、さらには他のモデルとの違いやAPI活用法まで、包括的に解説します。

この記事を読むことで、Gemini 1.5 Proの性能や機能を十分理解し、自身の仕事を効率化するヒントを得られるでしょう。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ SHIFT AI(会員1万人超)を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は10万人超え(2025年1月現在)

弊社SHIFT AIでは、Geminiなどの生成AIツールを活用して副業に役立てる方法を解説するセミナーを開催しています。

Geminiで副業をやってみたい方はぜひご参加ください。

【無料】30,000人以上が受講!

Gemini 1.5 Proとは?

本章では、Gemini 1.5 Proの基本情報を解説します。

なお、「まずはGeminiの全体像を知りたい」という方には、以下の記事もおすすめです。

Geminiの使い方・始め方を解説
【完全網羅】Google Gemini(ジェミニ)の使い方・始め方を解説!

【完全網羅】Google Gemini(ジェミニ)の使い方・始め方を解説!

Gemini(ジェミニ)はGoogleが開発した生成AIで、性能の高さと豊富な機能が人気となり、多くの方に使われています。本記事では、Geminiの無料版と有料版の違い、テキスト生成や画像認識などの主要機能の活用法、スマートフォンでの利用方法まで網羅的に解説しています。

Gemini Advancedで使える最高性能モデル

Gemini 1.5 ProはGoogleが開発した最新のAIモデルで、現行の世界最高性能モデル「OpenAI o1」に次ぐ二番目の性能を誇っています。
※2024年10月18日時点

さまざまなAIモデルを評価しているArtificial Analysisでは、Anthropicが開発した最高性能モデル「Claude 3.5 Sonnet」と同等の性能であるとされています。

Artificial Analysisのランキンググラフ。Gemini 1.5 Proは同率3位。
出典:Artificial Analysis

Gemini 1.5 Proは、研究者や開発者、ビジネス利用者など、高度なAI機能を必要とするユーザーにとって、とくにおすすめなモデルです。複雑な文章の理解やデータ分析、画像認識など、幅広い用途に対応できます。

マルチモーダルの性能が高い

Gemini 1.5 Proは、テキストだけでなく画像や音声、動画など、さまざまな種類の情報を理解し、処理できます。これは「マルチモーダル」と呼ばれ、この能力が高い点がGemini 1.5 Proの特徴です。

たとえば、動画を入力として与えると、Gemini 1.5 Proはその内容を理解し、何が起こっているのかを説明できます。

Gemini 1.5 Proで動画を要約している様子の画像
Gemini 1.5 Proが動画を解説している様子

高度なマルチモーダル能力によって、Gemini 1.5 Proは、従来のAIモデルでは不可能であるタスクも実行できるようになりました。

200万トークンまで読み込み可能

Gemini 1.5 Proは、一度に最大200万トークンまでの入力を処理できます。トークンとは、テキストを機械が理解しやすい形に分割したものを指し、おおよそ単語や句読点に相当します。

200万トークンは日本語にして160万〜170万文字程度に相当します。つまり、Gemini 1.5 Proは一冊の長編小説や、大量の業務文書を一度に処理できることを示します。

200万トークンまで処理できる能力により、たとえば膨大な法律文書の全体を入力し、特定の条項に関する詳細な質問に答えることや、長期間の経済データを分析して将来の傾向を予測するといった活用が可能になります。

このように、Gemini 1.5 Proは単に大量のデータを処理できるだけでなく、その情報を深く理解し、複雑な推論を行える高度なAIモデルなのです。

Gemini 1.5 Proの使い方|料金も解説

本章では、Gemini 1.5 Proを活用する方法を解説します。Gemini 1.5 Proを使うには、一般消費者向けプラットフォーム「Gemini」と、開発者向けプラットフォームである「Google AI Studio」のどちらかを使用します。それぞれ特徴が異なるプラットフォームであるため、違いを知り、用途にあったものを選択できるようになりましょう。

【有料・一般消費者向け】Gemini

一般消費者向けのGemini、いわゆる通常のGeminiでは、Gemini Advancedと呼ばれる有料プランに加入することで、Gemini 1.5 Proを使用できます。

Gemini Advancedは月額2,900円のGoogle Oneというプランに加入することで利用できます。この料金には、Google Oneの2TBストレージプランや、Google Meetの画質向上など多数の機能がついてくるため、ほぼ同じ金額のChatGPTやClaudeなどのサービスよりもお得に感じる方が多いかもしれません。

【有料・一般消費者向け】Geminiを使っている画像
通常のGeminiを使っている様子

Gemini Advancedを利用すると、ウェブブラウザ上でGemini 1.5 Proにアクセスできます。無料ユーザーとの違いは以下のとおりです。

項目無料Gemini Advanced
モデルGemini 1.5 FlashGemini 1.5 Pro
性能超高速・中程度の性能高速・高性能
トークン数※32,000トークン100万トークン
Googleサービスとの連携可能可能
画像認識可能可能
PDFやWordファイルなどの読み込み不可可能
画像生成可能可能
カスタムGemini(Gems)不可可能
※本来Flashは100万、Proは200万まで対応しているが、Geminiプラットフォームでは制限がかかる

Gemini Advancedにすることで、Gemini 1.5 Proを使えるだけでなく、多数のファイル形式(PDF・txt・Wordなど)を読み込めるようになったり、自分好みにGeminiをカスタムできるGemsを使えるようになったりします。

Gemini AdvancedではGeminiの性能向上以外にも多数のメリットがあるため、ビジネス活用したい方にはとくに推奨できます。

Gemini Advanvedについては、以下の記事で詳しく解説しているため、ぜひ参考にしてみてください。
関連記事:Gemini Advancedとは?できることや料金、無料版との違いを解説

なお、Gemini Advanced(Google One)は、現在1ヶ月無料キャンペーンを行なっています。興味のある方はキャンペーンが行われているうちに契約して、無料期間でGemini 1.5 Proを試してみるとよいでしょう。

>こちらから登録できます

Gemini Advanced登録画面の画像
出典:Gemini 1.5 Pro(Google)

ただし、通常のGeminiでは、動画や音声ファイルの直接入力には対応していない点に注意が必要です。これらのファイル形式を扱うには、後述するGoogle AI Studioの利用が必要になります。

【無料・開発者向け】Google AI Studio

Google AI Studioは、開発者やAI研究者向けのプラットフォームであり、Gemini 1.5 Proを含むGoogleの最新AIモデルを試せます。この環境では、APIを通じてGemini 1.5 Proの機能にアクセスし、さまざまな実験や開発を行えます。

そして、通常のGeminiでGemini 1.5 Proを使おうとすると有料課金が必要ですが、Google AI Studioでは無料で使用できます。制限も1日200万トークンまでで、制限が緩い点もメリットです。さらに、通常のGeminiではできない、動画や音声認識機能も使用可能になります。動画と音声認識の使い方は、次章で紹介します。

無料でありながら動画・音声認識機能を使えるGoogle AI Studioですが、通常のGeminiの親しみやすいUIや、Googleサービスとの連携や画像生成、Gemsなどの機能は使えなくなります。用途に合わせて、Google AI Studioと通常のGeminiを使い分けましょう。

Google AI Studioの利用には、Googleアカウントが必要です。利用を開始するには、Google AI Studioのウェブサイトにアクセスし、アカウントでログインします。その後、Google AI Studioの画面に移動したら、「Create new prompt」からチャットを開始できます。

Google AI Studioの画面を解説している画像

また、ここでAPIキーを取得して、別のアプリ・サイトなどでGeminiを使うことも可能です。APIについては記事後半で解説しているため、参考にしてみてください。

次に、Google AI Studioの特徴である動画・音声ファイルの読み込み方法を紹介します。

動画や音声ファイルを読み込む方法

Google AI StudioのGemini 1.5 Proで、動画や音声ファイルの読み込み機能を利用するには、以下の手順を踏む必要があります。

  1. ファイルアップロードボタン(+)をクリック
  2. 任意のファイルをアップロード
  3. プロンプトを入力(例:この動画の内容を要約してください)
動画・音声認識を行うステップを表した画像

なお、上記画面の「Record Audio」を選択すると、その場で発した音声をアップロードできます。また、「Sample Media」ではGoogleが用意した動画ファイルを使用できます。

動画・音声認識機能を利用することで、音声ファイルから議事録を作成したり、英語音声の動画を日本語訳したりできます。

これらの機能はGemini特有であるため、他の生成AIと上手に使い分けるとよいでしょう。

Gemini 1.5 Proと1.5 Flashの違い

Gemini 1.5 ProとGemini 1.5 Flashは、Googleが開発したAIモデルで、それぞれ異なる特徴をもっています。

比較項目Gemini 1.5 ProGemini 1.5 Flash
コンテキストウィンドウ最大200万トークン最大100万トークン
処理速度Flashには劣るが高速全AIモデルの中でトップレベル
性能全AIモデルの中でトップレベル中程度の性能
API料金※中程度の価格帯全AIモデルの中で最安レベル
※料金の詳細は次章で解説

Gemini 1.5 ProはFlashよりも全体的に高い性能をもっています。一方で、Gemini 1.5 Flashはとくに速度とコスト効率が求められる場面で有効です。

2つのモデルの違いを把握して、タスクの複雑さや必要な処理速度、コスト効率などを考慮して、適切なモデルを選択しましょう。

【開発者必見】Gemini 1.5 ProのAPIについて解説

Gemini 1.5 ProのAPIを使用することで、開発者は自身のアプリケーションやサービスにGeminiを組み込めます。たとえば、自社アプリにGemini 1.5 ProのAIチャットボットを搭載する使い方が考えられます。

Gemini 1.5 ProのAPIの特徴は以下のとおりです。

項目詳細
入力データタイプ音声、画像、動画、テキスト
出力データタイプテキスト
入力トークン上限2,097,152トークン
出力トークン上限8,192トークン
画像制限プロンプトあたり最大7,200枚
動画制限最大2時間
音声制限約19時間
レート制限
(この範囲の利用なら無料)
• 2 RPM (1分あたりのリクエスト数)
• 32,000 TPM (1分あたりのトークン数)
• 50 RPD (1日あたりのリクエスト数)
主な機能• システム指示対応
• JSONモード対応
• JSONスキーマ対応
• 安全性設定の調整可能
• キャッシュ保存対応
• 関数呼び出し対応
参考:Geminiのモデル(Google)

Gemini 1.5 Proには無料枠が設けられており、レート制限範囲内であればAPIが使い放題です。レート制限を超えてAPIを使用する場合は、以下の料金がかかります。

項目128,000トークンまで128,000トークン超
入力料金(100万トークンあたり)$1.25$2.50
出力料金(100万トークンあたり)$5.00$10.00
キャッシュ保存(100万トークンあたり)$0.3125$0.625
リクエスト制限1,000 RPM(1分あたり)←同じ
トークン処理制限400万 TPM(1分あたり)←同じ
プロンプト上限128,000トークンプロンプトサイズに応じて料金2倍
参考:料金モデル(Google)

Gemini 1.5 ProのAPIの活用例には以下のようなものがあります。

  1. 自然言語処理:複雑な文章の理解や生成、多言語翻訳、感情分析などに利用
  2. コード生成と分析:プログラミング言語の理解、コードの自動生成、バグの検出などが可能
  3. マルチメディア分析:画像認識、動画内容の要約、音声トランスクリプションなど、多様なメディアを扱うタスクに活用
  4. 高度な推論タスク:科学的な問題解決、数学的計算、論理的推論を必要とするタスクに適用
  5. 長文脈理解:長大な文書の要約、複雑なストーリーの分析、大規模なデータセットからの洞察抽出などに利用可能

開発者は、Google AI StudioやGoogle Cloud Vertex AIを通じてGemini 1.5 ProのAPIにアクセスし、これらの機能を自身のプロジェクトに統合できます。

Googleの最強AIモデル「Gemini 1.5 Pro」を使ってみよう!

Gemini 1.5 Proは性能が高いだけでなく、200万トークンの膨大なコンテキストウィンドウや画像・動画・音声などを認識できるマルチモーダル機能をもったAIモデルです。

Geminiのプラットフォームでは、Gemini 1.5 Proに加え、Googleサービスとの連携機能や画像生成機能を使えます。また、Google AI Studioでは、無料でGemini 1.5 Proを使えたり、動画・音声認識機能を使えたりします。用途に応じて適したプラットフォームを選択しましょう。

本記事を参考にGemini 1.5 Proを使って、業務効率を大幅に高めてみてください。

Geminiを使いこなすAI人材になりたい方は、セミナーやイベントに参加して生成AIについて学んでみてはいかがでしょうか。

SHIFT AIのように無料で参加できるセミナーもあるので、まずは気軽に参加申請を行ってみましょう。

【無料】30,000人以上が受講!

記事を書いた人

SHIFT AI TIMES編集長

大城一輝

フリーランスとしてライター、ディレクター、生成AIコンサルタントとして活動している。AI活用の講師も多数経験。
SHIFT AIではオウンドメディア(SHIFT AI TIMES)の編集長を担当。
また、SHIFT AIのモデレーターとしてコミュニティ運営や講師にも携わっている。
G検定・生成AIパスポート・Generative AI Test合格
Google AI Essentials修了
ノーコード生成AIツール「Create.xyz」公式アンバサダー
Xはこちら
Linkedinはこちら