share

公開日 

更新日 

  • Gemini
  • 生成AIトレンド

Gemini 2.0 FlashとDeep Researchがリリース!AIエージェントも発表

2024年12月、GoogleからGemini 2.0と、それを活用したさまざまな追加機能やプロジェクトなどが発表されました。

GeminiはGoogleの生成AIであり、これまで最高性能モデルはGemini 1.5シリーズでしたが、Gemini 2.0はそれらを上回ります。

また、テキスト生成以外にも、リアルタイムでの会話やユーザーのパソコン操作など、従来の生成AIの常識を覆す能力も備わっています。

本記事では、今回発表されたGeminiの進化について、基本情報からAIの使い方などを解説します。

本記事を読めば最新のAIトレンドを把握できるだけでなく、実際に使えるようになるでしょう。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員1万人超)を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は10万人超え(2025年1月現在)

弊社 SHIFT AIでは、GeminiやChatGPTを活用して副業を行ったり、転職・独立などをしたりするためのロードマップを解説するセミナーを定期的に開催しています。

「AIスキルを身につけて稼ぐ力を伸ばしたい」「副業や独立で収入をアップさせたい」と考えている方は、ぜひ以下のリンクから詳細をご確認ください。

【無料】30,000人以上が受講!

【発表1】Gemini 2.0が発表!まずはFlashから利用可能

本章では、今回の目玉であるGemini 2.0について紹介します。

  • Gemini 2.0の特徴
  • Gemini 2.0 Flashの使い方
  • Gemini 2.0を使ったリアルタイム会話APIも利用可能

Gemini 2.0の特徴

Gemini 2.0は、これまで最高性能モデルであったGemini 1.5シリーズをアップグレードさせたモデルシリーズです。Gemini 2.0シリーズは、まずGemini 2.0 Flashから一般公開されました。

Gemini 2.0 Flashはこれまでのモデルと比較して、マルチモーダル、テキスト、コード、ビデオ、空間理解、および推論のパフォーマンスが向上しています(以下参照)。  

出典:Google Gemini 2.0: News and announcements

Gemini 2.0 Flashの特徴は以下の通りです。

機能説明
高速・高精度高速応答時間で1.5 Proを上回るパフォーマンスを実現
マルチモーダル出力テキスト、画像、音声を統合したレスポンスを生成可能。例: レシピの場合、テキスト説明に加えて画像で完成図を表示、音声で手順説明
ツール連携Google検索やコード実行などのツールを直接呼び出せる。必要な情報を検索したりコードを実行可能
マルチモーダルライブAPIリアルタイムの音声会話・動画読み込みや、複数ツールの組み合わせを可能にするマルチモーダルAPI
高い安全性リスク軽減のための評価やトレーニングデータ生成、安全設計の徹底
写真、動画、音声録音の取り込み写真、動画、音声録音を取り込み、それに関する質問に回答可能。例: 動画を取り込み「彼は何と言いましたか?」と質問すると内容を音声で説明
音声生成テキストを音声で読み上げる機能。8種類の音声とアクセントを選択可能。話速や話し方も調整可能。例: 「海賊のように話してください」で海賊風口調で読み上げ

なお、Gemini 2.0 Flashは、一般向けに提供されているGeminiと、開発者向けのGoogle AI Studioで利用可能です。名前はGemini 2.0 Flash Experimentalという名前で試験中であることを示しており、正規のモデルは2025年1月リリースとされています。
※Experimentalでも性能は正規と同等

Gemini 2.0 Flashの使い方

ここで、Gemini 2.0 Flashの使い方を紹介します。Gemini 2.0 Flashは現在、一般向けのGeminiと、開発者向けのGoogle AI Studioで使用可能です。

Geminiでは、モデル選択画面で2.0 Flash Experimentalを選択することで使用できます。

Google AI Studioでも同様に、モデル選択画面でGemini 2.0 Flash Experimentalを選択すれば使用可能です。

リアルタイムに会話できるAPIも利用可能

Gemini 2.0の発表と同時に、リアルタイムでの会話能力、および音声・動画を認識できる機能を備えたマルチモーダルライブAPIがリリースされています。たとえば、マルチモーダルライブAPIを使用すると、Geminiと人間のように音声会話が行えます。

マルチモーダルライブAPIは、前述したGoogle AI Studioで使用可能です。使用するためには、Google AI StudioのStream Realtimeを選択します。

今回は、リアルタイムでGeminiと会話できる、「Talk to Gemini」を試してみましょう。

実際に会話している様子は以下とおりです。

そのほかにも、PCに写っている画面や、カメラで撮影している画面をリアルタイムで認識して、それを元にした回答を行えるモードもリリースされています。

また、Geminiにゲーム画面を認識させてデータをリアルタイムで処理し、状況の変化に即座に対応する行動をさせることも可能です。以下は、Googleが公表しているゲーム操作の様子です。

https://twitter.com/GoogleDeepMind/status/1867227885871731093

つまり、Gemini 2.0の目と耳を利用して、さまざまなサービスを構築できるようになったのです。

【発表2】長考検索モード「Deep Research」がリリース!

本章では、Geminiの新しい機能であるDeep Researchについて解説します。

  • Deep Researchとは?
  • Deep Researchの使い方

Deep Researchとは?

Deep Researchは、 ユーザーに代わって複雑なトピックを調査し、主要な調査結果と引用元へのリンクを含むレポートを作成できる機能です。 Deep Researchは、有料プランであるGemini Advancedの加入者に提供されています。

Deep Researchは、ユーザーが入力した質問に基づいて、ウェブ全体から関連情報を分析し、ユーザーがブラウジングするのと同じようにウェブを閲覧します。 これまでのGeminiもブラウジングを行っていましたが、その機能が強化され、より適切かつ多様な情報源を検索できるようになっています。

Deep Researchを活用することで、Google検索を行うよりも短い時間で情報を得られるだけでなく、それらを高速でレポート化できます。次にDeep Researchの使い方を紹介します。

Deep Researchの使い方

まず、Deep Researchを使うためには、Geminiの有料版であるGemini Advanecd(月額2,900円)への加入が必要です。Deep Researchを使用したい場合は、このリンクからGemini Advancedに加入しましょう。
※2024年12月現在、Gemini Advanecdは1ヶ月無料キャンペーン中

Gemini Advancedに加入したら、以下の画像のようにDeep Researchを使うモードが表示されます。Deep Researchモードを選択してプロンプトを入力すると、Geminiが検索を開始します。

しかし、2024年12月現在では、Deep Researchは基本的に日本語で使用できません。しかし、次に紹介する裏技を使えば、日本語で出力させることが可能になります。

Deep Researchを日本で使う裏技

Deep Researchを日本語で使用するには、以下のステップを踏みましょう。

  1. Googleアカウントの言語設定を英語(米国)にする
    ※アカウント管理>「個人情報」>「その他の情報と Google サービスの設定」>「言語」より設定可能
  2. 英語でプロンプトを入力する。この際、プロンプトの最後に「Please answer in Japanese.」と入力する。

入力プロンプトは英語しか受け付けないものの、出力言語は日本語でも受け付けることを利用した裏技です。Deep Researchを日本語で使用したい方は、ぜひ活用してみてください。

【発表3】スマホやPCを操作するAIエージェントプロジェクトが発表

Googleは最新のAIモデル「Gemini 2.0」を活用し、スマホやPCとのインタラクションを強化するAIエージェントプロジェクトを発表しました。このプロジェクトによって、パソコンをGeminiで動かしたり、より個人に沿ったAIの使い方が可能になったりすることが期待されます。

以下は各プロジェクトの特徴を詳述した表です。

プロジェクト名機能詳細主な利用用途
プロジェクトAstraGoogle検索、Lens、Mapsを活用した情報提供やタスク実行。過去の会話やユーザーの好みを記憶。日常生活でのスケジュール管理、ナビゲーション、情報収集
プロジェクトMarinerウェブページ上のボタン操作、フォーム入力、自動ナビゲーション。オンラインフォームの入力作業、ウェブブラウジングの効率化
プロジェクトJulesGitHub統合によるコード生成、エラー検出と修正、プロジェクト構造の計画支援。ソフトウェア開発全般、プログラムの品質向上

たとえば、プロジェクトMarinerによって、Amazonや楽天などでのネットショッピングもAIが自動で行うようになる可能性があります。以下は、Project Marinerのデモ動画です。

https://twitter.com/GoogleDeepMind/status/1866911076622758100

GoogleのAIエージェントによって、パソコンの操作やコード生成がより効率化されることが期待できます。

Gemini 2.0 Proのリリースにも期待が高まる

GoogleからGemini 2.0シリーズやDeep Researchが発表されたことで、さらにGeminiの使い勝手が向上するでしょう。そして、GeminiにはFlashだけでなく、ProやUltraといった上位モデルも存在します。今後、Gemini 2.0 ProやUltraなどがリリースされれば、生成AI界隈の勢力図が大きく変わるかもしれません。

弊社 SHIFT AIのメディアでは、今回のようなAIトレンド情報や、具体的なAI活用ノウハウなどを常に発信しています。AIの最新情報をキャッチアップしたい方や、業務への活用方法を知りたい方は、ぜひSHIFT AIのメディアを定期的に覗きにきてみてください。

さらに弊社SHIFT AIでは、GeminiやChatGPTを活用して副業を行ったり、転職・独立などをしたりするためのロードマップを解説するセミナーを定期的に開催しています。

「AIスキルを身につけて稼ぐ力を伸ばしたい」「副業や独立で収入をアップさせたい」と考えている方は、ぜひ以下のリンクから詳細をご確認ください。

【無料】30,000人以上が受講!

記事を書いた人

SHIFT AI編集部

日本最大のAIコミュニティ「SHIFT AI」編集部です!

AI専門メディアとして、さまざまな情報を発信中。

XYoutubeでも情報発信しています!