Googleの「Gemini 1.5 Pro」は、全AIモデルの中でもトップレベルの性能を誇るAIモデルです。また、Gemini 1.5 Proは高性能なだけでなく、テキスト以外(画像・動画・音声)を認識する能力も優れています。
他の生成AIとは一線を画すGemini 1.5 Proですが、特徴や使い方を知らなければ業務効率化は叶いません。
本記事では、Gemini 1.5 Proの特徴や使い方、料金体系、さらには他のモデルとの違いやAPI活用法まで、包括的に解説します。
この記事を読むことで、Gemini 1.5 Proの性能や機能を十分理解し、自身の仕事を効率化するヒントを得られるでしょう。
|監修者
(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員5,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9万人超え(2024年9月現在)
弊社SHIFT AIでは、Geminiの使い方を解説した「Gemini完全ガイド」を無料で配布しています。本章で解説している内容以外も詳細に解説しているため、ぜひ参考にしてみてください。
\ 無料 & 30秒で完了! /
Gemini 1.5 Proとは?
本章では、Gemini 1.5 Proの基本情報を解説します。
なお、「まずはGeminiの全体像を知りたい」という方には、以下の記事もおすすめです。
Gemini Advancedで使える最高性能モデル
Gemini 1.5 ProはGoogleが開発した最新のAIモデルで、現行の世界最高性能モデル「OpenAI o1」に次ぐ二番目の性能を誇っています。
※2024年10月18日時点
さまざまなAIモデルを評価しているArtificial Analysisでは、Anthropicが開発した最高性能モデル「Claude 3.5 Sonnet」と同等の性能であるとされています。
Gemini 1.5 Proは、研究者や開発者、ビジネス利用者など、高度なAI機能を必要とするユーザーにとって、とくにおすすめなモデルです。複雑な文章の理解やデータ分析、画像認識など、幅広い用途に対応できます。
マルチモーダルの性能が高い
Gemini 1.5 Proは、テキストだけでなく画像や音声、動画など、さまざまな種類の情報を理解し、処理できます。これは「マルチモーダル」と呼ばれ、この能力が高い点がGemini 1.5 Proの特徴です。
たとえば、動画を入力として与えると、Gemini 1.5 Proはその内容を理解し、何が起こっているのかを説明できます。
高度なマルチモーダル能力によって、Gemini 1.5 Proは、従来のAIモデルでは不可能であるタスクも実行できるようになりました。
200万トークンまで読み込み可能
Gemini 1.5 Proは、一度に最大200万トークンまでの入力を処理できます。トークンとは、テキストを機械が理解しやすい形に分割したものを指し、おおよそ単語や句読点に相当します。
200万トークンは日本語にして160万〜170万文字程度に相当します。つまり、Gemini 1.5 Proは一冊の長編小説や、大量の業務文書を一度に処理できることを示します。
200万トークンまで処理できる能力により、たとえば膨大な法律文書の全体を入力し、特定の条項に関する詳細な質問に答えることや、長期間の経済データを分析して将来の傾向を予測するといった活用が可能になります。
このように、Gemini 1.5 Proは単に大量のデータを処理できるだけでなく、その情報を深く理解し、複雑な推論を行える高度なAIモデルなのです。
Gemini 1.5 Proの使い方|料金も解説
本章では、Gemini 1.5 Proを活用する方法を解説します。Gemini 1.5 Proを使うには、一般消費者向けプラットフォーム「Gemini」と、開発者向けプラットフォームである「Google AI Studio」のどちらかを使用します。それぞれ特徴が異なるプラットフォームであるため、違いを知り、用途にあったものを選択できるようになりましょう。
【有料・一般消費者向け】Gemini
一般消費者向けのGemini、いわゆる通常のGeminiでは、Gemini Advancedと呼ばれる有料プランに加入することで、Gemini 1.5 Proを使用できます。
Gemini Advancedは月額2,900円のGoogle Oneというプランに加入することで利用できます。この料金には、Google Oneの2TBストレージプランや、Google Meetの画質向上など多数の機能がついてくるため、ほぼ同じ金額のChatGPTやClaudeなどのサービスよりもお得に感じる方が多いかもしれません。
Gemini Advancedを利用すると、ウェブブラウザ上でGemini 1.5 Proにアクセスできます。無料ユーザーとの違いは以下のとおりです。
項目 | 無料 | Gemini Advanced |
---|---|---|
モデル | Gemini 1.5 Flash | Gemini 1.5 Pro |
性能 | 超高速・中程度の性能 | 高速・高性能 |
トークン数※ | 32,000トークン | 100万トークン |
Googleサービスとの連携 | 可能 | 可能 |
画像認識 | 可能 | 可能 |
PDFやWordファイルなどの読み込み | 不可 | 可能 |
画像生成 | 可能 | 可能 |
カスタムGemini(Gems) | 不可 | 可能 |
Gemini Advancedにすることで、Gemini 1.5 Proを使えるだけでなく、多数のファイル形式(PDF・txt・Wordなど)を読み込めるようになったり、自分好みにGeminiをカスタムできるGemsを使えるようになったりします。
Gemini AdvancedではGeminiの性能向上以外にも多数のメリットがあるため、ビジネス活用したい方にはとくに推奨できます。
Gemini Advanvedについては、以下の記事で詳しく解説しているため、ぜひ参考にしてみてください。
関連記事:Gemini Advancedとは?できることや料金、無料版との違いを解説
なお、Gemini Advanced(Google One)は、現在1ヶ月無料キャンペーンを行なっています。興味のある方はキャンペーンが行われているうちに契約して、無料期間でGemini 1.5 Proを試してみるとよいでしょう。
>こちらから登録できます
ただし、通常のGeminiでは、動画や音声ファイルの直接入力には対応していない点に注意が必要です。これらのファイル形式を扱うには、後述するGoogle AI Studioの利用が必要になります。
【無料・開発者向け】Google AI Studio
Google AI Studioは、開発者やAI研究者向けのプラットフォームであり、Gemini 1.5 Proを含むGoogleの最新AIモデルを試せます。この環境では、APIを通じてGemini 1.5 Proの機能にアクセスし、さまざまな実験や開発を行えます。
そして、通常のGeminiでGemini 1.5 Proを使おうとすると有料課金が必要ですが、Google AI Studioでは無料で使用できます。制限も1日200万トークンまでで、制限が緩い点もメリットです。さらに、通常のGeminiではできない、動画や音声認識機能も使用可能になります。動画と音声認識の使い方は、次章で紹介します。
無料でありながら動画・音声認識機能を使えるGoogle AI Studioですが、通常のGeminiの親しみやすいUIや、Googleサービスとの連携や画像生成、Gemsなどの機能は使えなくなります。用途に合わせて、Google AI Studioと通常のGeminiを使い分けましょう。
Google AI Studioの利用には、Googleアカウントが必要です。利用を開始するには、Google AI Studioのウェブサイトにアクセスし、アカウントでログインします。その後、Google AI Studioの画面に移動したら、「Create new prompt」からチャットを開始できます。
また、ここでAPIキーを取得して、別のアプリ・サイトなどでGeminiを使うことも可能です。APIについては記事後半で解説しているため、参考にしてみてください。
次に、Google AI Studioの特徴である動画・音声ファイルの読み込み方法を紹介します。
動画や音声ファイルを読み込む方法
Google AI StudioのGemini 1.5 Proで、動画や音声ファイルの読み込み機能を利用するには、以下の手順を踏む必要があります。
- ファイルアップロードボタン(+)をクリック
- 任意のファイルをアップロード
- プロンプトを入力(例:この動画の内容を要約してください)
なお、上記画面の「Record Audio」を選択すると、その場で発した音声をアップロードできます。また、「Sample Media」ではGoogleが用意した動画ファイルを使用できます。
動画・音声認識機能を利用することで、音声ファイルから議事録を作成したり、英語音声の動画を日本語訳したりできます。
これらの機能はGemini特有であるため、他の生成AIと上手に使い分けるとよいでしょう。
Gemini 1.5 Proと1.5 Flashの違い
Gemini 1.5 ProとGemini 1.5 Flashは、Googleが開発したAIモデルで、それぞれ異なる特徴をもっています。
比較項目 | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|
コンテキストウィンドウ | 最大200万トークン | 最大100万トークン |
処理速度 | Flashには劣るが高速 | 全AIモデルの中でトップレベル |
性能 | 全AIモデルの中でトップレベル | 中程度の性能 |
API料金※ | 中程度の価格帯 | 全AIモデルの中で最安レベル |
Gemini 1.5 ProはFlashよりも全体的に高い性能をもっています。一方で、Gemini 1.5 Flashはとくに速度とコスト効率が求められる場面で有効です。
2つのモデルの違いを把握して、タスクの複雑さや必要な処理速度、コスト効率などを考慮して、適切なモデルを選択しましょう。
【開発者必見】Gemini 1.5 ProのAPIについて解説
Gemini 1.5 ProのAPIを使用することで、開発者は自身のアプリケーションやサービスにGeminiを組み込めます。たとえば、自社アプリにGemini 1.5 ProのAIチャットボットを搭載する使い方が考えられます。
Gemini 1.5 ProのAPIの特徴は以下のとおりです。
項目 | 詳細 |
---|---|
入力データタイプ | 音声、画像、動画、テキスト |
出力データタイプ | テキスト |
入力トークン上限 | 2,097,152トークン |
出力トークン上限 | 8,192トークン |
画像制限 | プロンプトあたり最大7,200枚 |
動画制限 | 最大2時間 |
音声制限 | 約19時間 |
レート制限 (この範囲の利用なら無料) | • 2 RPM (1分あたりのリクエスト数) • 32,000 TPM (1分あたりのトークン数) • 50 RPD (1日あたりのリクエスト数) |
主な機能 | • システム指示対応 • JSONモード対応 • JSONスキーマ対応 • 安全性設定の調整可能 • キャッシュ保存対応 • 関数呼び出し対応 |
Gemini 1.5 Proには無料枠が設けられており、レート制限範囲内であればAPIが使い放題です。レート制限を超えてAPIを使用する場合は、以下の料金がかかります。
項目 | 128,000トークンまで | 128,000トークン超 |
---|---|---|
入力料金(100万トークンあたり) | $1.25 | $2.50 |
出力料金(100万トークンあたり) | $5.00 | $10.00 |
キャッシュ保存(100万トークンあたり) | $0.3125 | $0.625 |
リクエスト制限 | 1,000 RPM(1分あたり) | ←同じ |
トークン処理制限 | 400万 TPM(1分あたり) | ←同じ |
プロンプト上限 | 128,000トークン | プロンプトサイズに応じて料金2倍 |
Gemini 1.5 ProのAPIの活用例には以下のようなものがあります。
- 自然言語処理:複雑な文章の理解や生成、多言語翻訳、感情分析などに利用
- コード生成と分析:プログラミング言語の理解、コードの自動生成、バグの検出などが可能
- マルチメディア分析:画像認識、動画内容の要約、音声トランスクリプションなど、多様なメディアを扱うタスクに活用
- 高度な推論タスク:科学的な問題解決、数学的計算、論理的推論を必要とするタスクに適用
- 長文脈理解:長大な文書の要約、複雑なストーリーの分析、大規模なデータセットからの洞察抽出などに利用可能
開発者は、Google AI StudioやGoogle Cloud Vertex AIを通じてGemini 1.5 ProのAPIにアクセスし、これらの機能を自身のプロジェクトに統合できます。
Googleの最強AIモデル「Gemini 1.5 Pro」を使ってみよう!
Gemini 1.5 Proは性能が高いだけでなく、200万トークンの膨大なコンテキストウィンドウや画像・動画・音声などを認識できるマルチモーダル機能をもったAIモデルです。
Geminiのプラットフォームでは、Gemini 1.5 Proに加え、Googleサービスとの連携機能や画像生成機能を使えます。また、Google AI Studioでは、無料でGemini 1.5 Proを使えたり、動画・音声認識機能を使えたりします。用途に応じて適したプラットフォームを選択しましょう。
Geminiの全体像については以下の記事で詳しく解説しているため、ぜひ参考にしてみてください。
本記事を参考にGemini 1.5 Proを使って、業務効率を大幅に高めてみてください。
弊社SHIFT AIでは、Geminiの使い方を解説した「Gemini完全ガイド」を無料で配布しています。本章で解説している内容以外も詳細に解説しているため、ぜひ参考にしてみてください。
\ 無料 & 30秒で完了! /