share

更新日 

  • Gemini

Gemini(Google AI Studio)で文字起こしする5つの手順!活用事例やメリットも紹介

会議やインタビューの膨大な音声データを文字に起こす作業に時間がかかり、悩んだことはありませんか。

文字起こしを効率化するには、Gemini(ジェミニ)の活用がおすすめです。Geminiを使えば、誰でも無料で音声をテキスト化できます。

本記事では、Geminiで文字起こしをする手順や便利なプロンプト、利用時の注意点を紹介します。

記事を読んで文字起こしを効率化して議事録の整理や質の高い記事執筆など、創造的な仕事に専念しましょう。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会(GUGA)協議員 / Microsoft Copilot+ PCのCMに出演 / AI活用コミュニティ SHIFT AI(会員20,000人超)を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は14万人超え(2026年1月現在)

SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、昇進・転職などに役立つスキルを学んだりするためのセミナーを開催しています。

また、参加者限定で、「今日から使えるプロンプト100選」「新時代のAI×デザイン活用ガイド」「Nano Banana Pro 徹底解説」など、全12個の資料を無料で配布しています。

「これからAIを学び始めたい」「AIを使って副業収入を得たい」「AIで業務を効率化したい」という方は、ぜひ以下のボタンからセミナーに参加してみてください。

スキルゼロから始められる!

無料AIセミナーに参加する

Geminiの文字起こしとは

Geminiのトップ画面
参照:Gemini

Googleが提供する生成AIのGeminiを使えば、精度の高い文字起こしが可能です。

Geminiは高度な自然言語処理能力に加え、音声や動画を直接解析する機能を搭載しているからです。

録音した音声ファイルだけでなく、YouTube動画のURLや撮影した動画ファイルからでも正確にテキストデータへ変換できます。

以前は録音データのテキスト化に専用ソフトや専門業者への依頼が必要でしたが、現在は以下のような幅広いシーンでGeminiの文字起こしが役立ちます。

  • 会議の議事録作成
  • 取材音源のテキスト化
  • 動画コンテンツの要約作成

単純な文字起こし作業で悩む人は、Geminiで業務を効率化しましょう。

手作業による時間の浪費をなくせば、会議の要点整理や記事の執筆といった創造的な仕事に集中できます。

Geminiの特徴や活用方法を詳しく知りたい人は、以下の関連記事をご確認ください。

関連記事: Geminiは何がすごい?できること18選!特徴や他のAIツールとの違いも解説

Geminiの文字起こしをするメリット

Geminiを使った文字起こしによって得られるメリットは、以下のとおりです。

  • 話者の識別や感情の検出まで一括で対応できる
  • 議事録や記事作成の工数を大幅に削減できる
  • 多言語にも対応している

メリットを把握して、文字起こしによる時間短縮を目指しましょう。

話者の識別や感情の検出まで一括で対応できる

Geminiの文字起こしは、話者の識別や感情の検出まで一括で対応できます。

Geminiは複数の発言者がいる場合でも、誰が話しているかを自動で判別してラベル付けを行います。

従来の文字起こしでは、録音データを聞き返しながら「発言者A」や「発言者B」といった名前を手動で入力する手間がありました。

しかし、Geminiの文字起こしを活用すれば、AIが発言の区切りと話者を特定するため、手作業による修正時間の短縮が可能です。

さらにGeminiは、音声から話し手の感情が「喜び」や「怒り」であるかを判別する機能も備えています。

たとえば、現場の空気感やニュアンスを正確に再現した記事を作成するときに効果的です。

参照:Gemini API

議事録や記事作成の工数を大幅に削減できる

Geminiの文字起こしを活用すれば、議事録や記事作成にかかる工数を削減できます。例えば以下のようなシーンに有用です。

  • 文字起こし:会議の現場で詳細なメモを取る必要がなくなり、議論へ積極的に参加できる
  • 取材:相手の話に耳を傾けられ、核心に迫る質問を投げかける余裕が生まれる

従来の文字起こし作業は、録音された音声を何度も聞き返して手動でタイピングする必要がありました。

現在はGeminiに音声ファイルを読み込ませるだけで、高精度な文字起こしを短時間で生成可能です。

高品質な録音データを用意できれば、Geminiが自動で文字起こしを完結させるため、記録漏れの不安もありません。

Geminiで議事録作成を効率化する方法は、以下の関連記事をご確認ください。

関連記事:Geminiで議事録作成を効率化する方法!精度を上げるコツも解説

多言語にも対応している

Geminiの文字起こしは、世界中の言語に対応しています。

Google公式によると、Geminiウェブアプリは現在40を超える言語をサポートしており、230を超える国と地域で利用可能です。
参照:Gemini ウェブアプリを利用できる言語と国 / 地域(Gemini アプリ ヘルプ)

以下の主要言語による音声データもGeminiであれば、正確に識別してテキスト化できます。

  • 日本語
  • 英語
  • 中国語
  • 韓国語
  • フランス語
  • ドイツ語

多言語が入り混じる国際会議や海外メディアのインタビュー音源を扱う際も、Geminiならスムーズに文字起こしできます。

多様な言語を網羅しているGeminiを活用して、言葉の壁を意識せずに世界中の情報を効率よく整理しましょう。

Geminiで翻訳をする際は、以下の関連記事をご確認ください。

関連記事: 【プロンプト付き】Geminiを活用して翻訳する方法!コツや活用事例、注意点まで網羅

Geminiの文字起こしは無料?

Geminiの文字起こしは、無料で利用できます。

ただし、GeminiアプリとGoogle AI Studioとで、扱えるデータの長さやファイルサイズが異なるため注意が必要です。

GeminiアプリとGoogle AI Studioの仕様を以下の比較表にまとめました。

項目GeminiアプリGoogle AI Studio
月額料金・無料版:0円
・AI Plus:1,200円
・AI Pro:2,900円
・AI Ultra:36,400円
無料枠あり
(超過分は従量課金)
ファイルサイズ最大100MB最大2GB
同時アップロード最大10ファイル合計9.5時間まで
※記載の料金は税込み金額です。
参照:Gemini アプリでファイルをアップロードして分析する(Gemini アプリ ヘルプ)
参照:音声ファイルをアップロードする(Gemini API)

Geminiアプリであれば、1ファイルあたり最大100MB、合計10ファイルまでの音声データをアップロードできます。

数分程度のボイスメモや短い打ち合わせの記録であれば、Geminiアプリだけでも作業効率が向上します。

まずは音声ファイルやYouTube動画を使って、文字起こしの精度を体験してみてください。

長時間の会議や大容量のデータを一括で処理したい場合には、Google AI Studioの利用を検討しましょう。

Geminiで文字起こしをする方法

GeminiアプリとGoogle AI Studioのそれぞれで文字起こしをする方法を紹介します。

Geminiアプリで行う方法(パソコン)

パソコンのGeminiアプリで文字起こしをする手順は、以下のとおりです。

  1. Geminiアプリにログインする
  2. 文字起こしをするデータをアップロードする
  3. プロンプトを入力する
  4. 文字起こしが完了する

画像付きで詳しく紹介します。

Geminiアプリにログインする

Geminiの公式サイトへアクセスします。右上の「ログイン」ボタンからメールアドレスとパスワードを入力しましょう。

>Geminiの公式サイトはこちら

文字起こしをするデータをアップロードする

今回はYouTubeの動画URLをコピーし、Geminiのチャットへ貼り付けます。

音声ファイルを使用する場合は、入力フォーム左側の「+」アイコンをクリックし、パソコン内のデータをアップロードしましょう。

プロンプトを入力する

「URLの内容を文字起こしして」や「内容を要約して」といったプロンプトを入力します。

動画の内容を章立てしてまとめたい場合は、具体的な構成案をプロンプトに含めて送信しましょう。

文字起こしが完了する

Geminiが動画の内容を解析し、チャット画面上に文字起こし内容が出力されます。

文字起こしの内容について追加で質問を投げかければ、詳細な分析や情報の整理が可能です。

Geminiアプリで行う方法(スマホ)

スマホのGeminiアプリで文字起こしをする手順は、以下のとおりです。

  1. Geminiアプリをインストールする
  2. Geminiにログインする
  3. 文字起こしをするデータをアップロードする
  4. プロンプトを入力する
  5. 文字起こしが完了する

画像付きで詳しく紹介します。

Geminiアプリをインストールする

App StoreまたはGoogle Playストアを開きます。「Gemini」と検索して公式アプリをインストールしましょう。

>App Storeはこちらから
>Google Playストアはこちらから

インストール完了後、ホーム画面に生成されたアイコンをタップしてアプリを起動します。

Geminiにログインする

画面右上のユーザーアイコンをタップし、自身のアカウントでログインしているか確認します。

ログインに成功すると、チャット入力欄が表示され文字起こしが可能です。

文字起こしをするデータをアップロードする

入力フォーム左側にある「+」アイコンをタップし、メニューから「ファイル」を選択します。

スマホに保存されている音声ファイルを選択して、Geminiへアップロードしましょう。

プロンプトを入力する

アップロードしたファイルに対して「文字起こしをお願いします」といったプロンプトを入力します。

特定の形式でまとめてほしい場合は、章立てや要約の指示を付け加えましょう。

文字起こしが完了する

Geminiが音声内容を解析し、チャット画面上にテキストが出力されます。

今回出力された文字起こしの内容は、会話の導入部や重要セクションごとに構造化され、わかりやすく整理されました。

Google AI Studioで行う方法(パソコン)

パソコンのGoogle AI Studioでの文字起こしの手順は、以下のとおりです。

  1. Google AI Studioにアクセスする
  2. 音声ファイルをアップロードする
  3. プロンプトを入力する
  4. 文字起こしが完了する

画像付きで詳しく紹介します。

Google AI Studioにアクセスする

ブラウザから「Google AI Studio」の公式サイトへアクセスし、自身のGoogleアカウントでログインします。

>Google AI Studioはこちらから

画面左側のメニューから「Playground」を選択しましょう。

音声ファイルをアップロードする

パソコン内に保存されている音声ファイルを、Google AI Studio内にドラッグ&ドロップしましょう。

今回はYouTube動画のURLをコピー&ペーストして文字起こしをします。アップロードが完了すると、ファイル名とトークン数が入力欄に表示されます。

プロンプトを入力する

アップロードしたファイルに対して「動画の文字起こしをお願いします」といったプロンプトを入力します。

会議の要約や章立てを同時に依頼したい場合は、詳細な構成指示を付け加えましょう。

文字起こしが完了する

チャット画面にテキストが出力され、文字起こしが完了します。出力された内容は、イントロダクションや各セクションごとの要点が整理されます。

長尺の動画であっても、内容を適切に章立てした構造的な文字起こしが可能です。

Google AI Studioで行う方法(スマホ)

スマホのGoogle AI Studioでの文字起こしの手順は、以下のとおりです。

  1. Google AI Studioにアクセスする
  2. 音声ファイルをアップロードする
  3. プロンプトを入力する
  4. 文字起こしが完了する

画像付きで詳しく紹介します。

Google AI Studioにアクセスする

Google AI Studioには専用のスマホアプリが存在しません。SafariやGoogle Chromeなどのブラウザから公式サイトへアクセスします。

>Google AI Studioはこちらから

パソコン版と同じGoogleアカウントでログインし、ブラウザ上で操作画面を表示させましょう。

音声ファイルをアップロードする

画面内の「+」アイコンをタップし、スマホから文字起こししたい音声データを選択します。

アップロードが完了すると、入力フォームにファイルが表示されます。

プロンプトを入力する

ファイルの上にある入力欄に「音声内容を文字起こししてください」などのプロンプトを入力します。

特定の形式でまとめたい場合は、具体的な構成指示を入力しましょう。

文字起こしが完了する

実行ボタンをタップすると解析が始まり、チャット画面に文字起こしが出力されます。

今回、文字起こしされた内容は、タイムスタンプごとに細かく区切られていました。発言内容や要点が構造的に整理された状態で表示されています。

Geminiで文字起こしを行う際に役立つプロンプト

Geminiで文字起こしを行う際に役立つ以下のプロンプトを紹介します。

  • 基本的な文字起こしを依頼するプロンプト
  • 話者分離やタイムスタンプを指示するプロンプト
  • 要約や翻訳を同時に依頼するプロンプト

コピー&ペーストですぐに使えるプロンプトなので、文字起こしの際にご活用ください。

基本的な文字起こしを依頼するプロンプト

Geminiのプロンプトに「一字一句漏らさず」といった条件を含めると、内容の要約を防ぎ発言内容を忠実に文字起こしできます。

Geminiで文字起こしをするプロンプトは、以下のとおりです。

音声データを一字一句漏らさず、正確に文字起こししてください。

【指示事項】
・話し手の言葉を省略せずにすべてテキスト化すること
・「えー」「あのー」などのフィラー(不要な言葉)は適宜取り除いて整形すること
・内容が理解しやすいように、適宜改行を入れて出力すること

実際に生成された文字起こしの内容は、以下の画像をご覧ください。

上記のプロンプトを用いてYouTube動画の文字起こしをした結果、動画内の発言が高い精度でテキスト化されました。

読みやすく整理された文章が出力されています。

手作業で修正する手間が大幅に省けるため、Geminiの文字起こしは議事録作成や記事執筆の効率化に最適です。

話者分離やタイムスタンプを指示するプロンプト

Geminiで文字起こしを実行する際、複数の話し手を識別する話者分離やタイムスタンプ(発言時間の記録)が可能です。

話者分離やタイムスタンプを使った文字起こしをするには、以下のプロンプトを利用すると効果的です。

アップロードした音声データを解析し、以下の条件で文字起こしを実行してください。

【指示事項】
・話し手を「話者1」「話者2」のように識別して書き起こすこと
・各発言の開始時間を「MM:SS」形式のタイムスタンプで記載すること
・発言内容を省略せず、一言一句正確にテキスト化すること

Geminiの文字起こしの結果は、以下のとおりです。

YouTube動画の文字起こしをした結果、Geminiは音声内の特徴から異なる話者を検出し、個別にラベル付けをしました。

Geminiで出力されたテキストには「00:00 話者1」や「00:14 話者2」といった形式でタイムスタンプが付与されています。

会話の流れが視覚的に整理されるため、会議の議事録作成において「誰がいつ何を発言したか」を正確に記録できます。

要約や翻訳を同時に依頼するプロンプト

Geminiの文字起こしでは、テキスト化と同時に要約や他言語への変換も一括で実行できます。

以下のプロンプトをGeminiに入力し、要約と翻訳を同時に依頼しました。

アップロードした音声データを解析し、以下の指示に従って出力してください。

【指示事項】
・音声内容を一字一句漏らさず正確に文字起こしすること
・文字起こしした内容に基づき、会議で共有するための「要約」を章立てして作成すること
・要約の内容を、海外拠点への報告用に「英語」へ翻訳して併記すること

プロンプトにより文字起こしされた内容は、以下のとおりです。

文字起こしの結果を確認すると日本語による詳細な要約が作成された後、英文翻訳が併記されています。

Geminiによる同時要約・翻訳は、資料作成の工数を削減できます。

SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、昇進・転職などに役立つスキルを学んだりするためのセミナーを開催しています。

また、参加者限定で、「今日から使えるプロンプト100選」「新時代のAI×デザイン活用ガイド」「Nano Banana Pro 徹底解説」など、全12個の資料を無料で配布しています。

「これからAIを学び始めたい」「AIを使って副業収入を得たい」「AIで業務を効率化したい」という方は、ぜひ以下のボタンからセミナーに参加してみてください。

スキルゼロから始められる!

無料AIセミナーに参加する

Geminiを使った文字起こしの活用事例

Geminiを使った文字起こしが活躍する場面は多岐にわたります。ここでは具体的な3つの活用事例を紹介します。

  • ミーティングの議事録作成
  • 講演やセミナーのまとめ
  • 取材やインタビューの文字起こし

各事例について詳しく解説するので、ぜひ参考になさってください。

ミーティングの議事録作成

会議やミーティングの議事録作成は、参加者の発言内容を正確に記録し、後日の確認や情報共有に役立てるために不可欠です。

会議中に録音した音声ファイルをアップロードするだけで、参加者の発言内容がテキストデータとして生成可能です。

発言者ごとの識別や句読点の自動付与も可能なので、議事録としての体裁も整えやすくなります。

正確な記録やスムーズな情報共有が可能となるため、議事録作成担当者の負担を軽減するだけでなく、部署全体の効率アップにもつながります。

講演やセミナーのまとめ

Geminiの文字起こしを活用すれば、長時間の講演やセミナーの内容を短時間でまとめられます。

録音した音声ファイルだけでなく、撮影した動画ファイルもGeminiに読み込ませて文字起こしが可能です。

1時間を超えるようなセミナー動画であっても、重要ポイントを抜き出したサマリーや学習ノートを自動生成できるので、動画や音声の全編を何度も聞き返す手間が省けます。

SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、昇進・転職などに役立つスキルを学んだりするためのセミナーを開催しています。

また、参加者限定で、「今日から使えるプロンプト100選」「新時代のAI×デザイン活用ガイド」「Nano Banana Pro 徹底解説」など、全12個の資料を無料で配布しています。

「これからAIを学び始めたい」「AIを使って副業収入を得たい」「AIで業務を効率化したい」という方は、ぜひ以下のボタンからセミナーに参加してみてください。

スキルゼロから始められる!

無料AIセミナーに参加する

取材やインタビューの文字起こし

Geminiの文字起こしを活用すれば、Webライターやジャーナリストが直面する書き起こし時間を短縮できます。

録音した音声ファイルだけでなく、Zoom取材の録画データやインタビュー動画をGeminiに読み込ませてテキスト化できるからです。

専門用語や固有名詞が含まれる複雑なインタビュー動画でも、Geminiがデータを解析し構造化されたテキストとして出力します。

話者分離プロンプトを併用すれば、インタビュアーと対象者の発言を明確に区別した取材ノートが完成します。

単純な入力作業に奪われていた時間を、記事の構成案作成や深い内容分析といった創造的な業務に充てましょう。

Geminiの文字起こしに関するよくある質問

Geminiの文字起こしに関する質問についてお答えします。

  • Geminiの文字起こしが途中で止まる場合どうしたらいいですか
  • Geminiを使って動画の文字起こしはできますか
  • Geminiを使ってリアルタイムの文字起こしはできますか
  • 音声品質によってGeminiの文字起こし精度は左右されますか

質問に対する回答を確認して、Geminiを文字起こしする際の参考にしてみてください。

Geminiの文字起こしが途中で止まる場合どうしたらいいですか

Geminiで長尺の音声データを処理している際に、文字起こしが途中で停止する場合があります。

文字起こしが途中で止まる場合は、プロンプトに「続きを書いて」などと入力します。

Geminiは直前の会話文脈を保持しているため、停止した箇所から再開して文字起こしの継続が可能です。

プロンプトによる指示でも正常に動作しない場合は、音声ファイルのサイズや長さを調整する必要があります。

音声データを1時間ごとに分割したり、ファイル形式を圧縮して容量を小さくしたりすると安定した文字起こしができます。

Geminiを使って動画の文字起こしはできますか

2025年10月現在、Gemini単体でも直接動画ファイルを読み込んで文字起こしを行うことは可能です。

音声ファイルの他に、YouTube動画の要約もGeminiで実行可能です。以下の記事で方法をまとめているのでご参照ください。

関連記事: GeminiのYouTube動画要約を3ステップで解説!メリットや活用事例も

Geminiを使ってリアルタイムの文字起こしはできますか

Gemini単体では、リアルタイムで文字起こしをする機能は提供されていません

録音済みの音声ファイルや動画をアップロードして解析する「非同期処理」が基本の動作モデルだからです。

対応策として以下の方法が挙げられます。

方法説明
別のモニターやスマホでGeminiを起動し音声入力ZoomなどのWeb会議をスピーカーで再生しながら、Geminiに音声を聞かせると、発言内容を文字起こしできる
Googleドキュメントの音声入力機能で出力したテキストをGeminiへコピー&ペーストリアルタイムに近い議事録作成に有効だが、ネットワーク環境やマイクの性能によって入力精度が左右される
モバイル版のGeminiのGemini Live機能の使用Gemini側の応答のみリアルタイムで文字起こしが可能。アクティビティ設定がオンであれば会話履歴は自動保存され、会議後の振り返りやメモ作成に役立つ

音声品質によってGeminiの文字起こし精度は左右されますか

Geminiの文字起こしは、読み込ませる音声データの音質によってテキスト化の正確性が変わるおそれがあります。

音声データに雑音が含まれていたり、話し手の声が極端に小さかったりすると、AIが言葉を正しく判別できないからです。

文字起こしの精度を高めるには、録音時の音声をできるだけクリアにする必要があります。

周囲の騒音が少ない静かな環境で録音を行い、マイクと話し手の距離を適切に保ちましょう。

専門用語や滑舌の影響で誤訳が発生した場合は、文字起こしのテキストデータを人間が目視で確認します。

クリアな音声データと文字起こしの確認をすれば、修正の手間を最小限に抑えた議事録や記事原稿を作成できます。

Geminiの文字起こしで効率化を実現し時間的の余裕を手に入れよう

Googleが提供する生成AI「Gemini」を使えば、会議の録音やインタビューの音声を簡単に文字起こし可能です。

Geminiは言葉を理解する能力が高く、音声ファイルやYouTubeの動画を読み込んで内容を書き出せます。

紹介したプロンプトを実践すれば、数時間かかる手作業の文字起こしが即座に完了します。

Geminiによる文字起こしで業務を効率化して、記事の執筆や情報の分析といった重要な仕事に専念しましょう。

SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、キャリアアップで年収を高めたりするノウハウをお伝えする無料セミナーを開催しています。

セミナーでは、主に以下の内容を学習できます。

  • AIを使った副業の始め方・収入を得るまでのロードマップ
  • おすすめの副業案件と獲得方法
  • AIスキルを高めて昇進・転職などに役立てる方法
  • 実際に成果を出しているロールモデルの紹介
  • これから使うべきおすすめのAIツール

無料セミナーは、AI初心者〜中級者の方を対象としています。

「これからAIを学習したいけど、何から始めていいのか分からない」「AIの独学に限界を感じてきた」という方にとくにおすすめです。

また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。

完全無料で参加できるため、ご興味のある方は、ぜひセミナーに申し込んでみてください。

スキルゼロから始められる!

無料AIセミナーに参加する

執筆者

中島正雄

Webライター、ITコンサルタント、パーソナルトレーナーとして大阪を拠点に活動中。
自身はAIを活用して執筆時間をおよそ半分に削減。またコンサル先からもAIで業務改善につながったと喜ばれている。
SHIFT AIではSEOメディアにライターとして関わる。趣味はプロレス観戦。