share

公開日 

更新日 

  • ChatGPT
  • 生成AIトレンド

【実演あり】ChatGPTの新機能「ボイスモード」とは?いつ利用可能になるのか時期を解説

2024年7月31日、OpenAIはかねてより公表していたChatGPTの音声会話機能「Advanced Voice Mode※」を、一般ユーザーにリリースしました。そして9月24日には、本格的に一般公開が始まることが発表されています。
※以降、ボイスモードと記載

ボイスモードは、従来ChatGPTに備わっていた音声機能から進化しており、ユーザーは人間と同じ早さ、かつ自然な言葉でChatGPTと会話できます。

本記事では、ChatGPTのボイスモードについて、5つの特徴や実際に使った動画などを紹介しています。また、筆者が実際に使っている様子も紹介しています。

今のうちにボイスモードについて詳しく理解しておいて、利用できるようになった際に、すぐに使いこなせるようになっておきましょう。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ SHIFT AI(会員1万人超)を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は10万人超え(2025年1月現在)

ChatGPTの効果的な活用方法を学び、業務効率化や収入アップを目指したい方へ。弊社SHIFT AIでは、ChatGPTの使い方を解説する無料セミナーを開催しています。

参加者には、ChatGPTマスターロードマップや業務効率化ガイドなど、実践的な特典も多数ご用意しています。

AIツールを活用してビジネスを加速させたい方は、以下のリンクからセミナーの詳細をご確認ください。

【無料】30,000人以上が受講!

ChatGPTのボイスモードとは?

ChatGPTのボイスモードとは、ユーザーが音声を使ってChatGPTと対話できる機能のことです。

この機能を利用することで、AIとのコミュニケーションが可能となり、会話を楽しむことができます。また、ChatGPTから音声で応答を聞くことができるため、より自然な対話体験を提供してくれます。

例えば、「AIの使い方について教えて」と伝えると、すぐに答えてくれます。学びたいテーマについて会話形式で聞けるため、物事の深い理解が得やすくなります。

ChatGPTのボイスモードの5つの特徴

ChatGPTのボイスモードの特徴は以下の5つです。

GPT-4oによって人間と遜色ない速度で会話できる
日本語でも会話できる
音声表現が豊か
リアルタイムでデバイス画面や撮影動画を理解できる
オンライン会議へ参加できる

それぞれの特徴について、詳しくみてみましょう。

①GPT-4oによって人間と遜色ない速度で会話できる

ボイスモードでは、OpenAIの最高性能・高速応答モデルである「GPT-4o(ジーピーティー・フォー・オー)を利用しており、人間と同じ速度での会話を実現しています。

以下は、OpenAI社員がボイスモードを使用している様子です。

応答速度は平均320ミリ秒(0.32秒)とされており、数値で見ても人間と変わらないといいます。

従来のChatGPTにもボイスモードは搭載されていましたが、これほど高速に応答できませんでした。

新しいボイスモードによって、ChatGPTと人間のように会話できるようになります。ボイスモードを支えるGPT-4oについては、以下の記事を参考にしてみてください。

GPT-4oの基礎知識や機能、活用方法などを解説
【無料で使える】ChatGPT-4(GPT-4o)の特徴や活用事例、使い方を完全網羅!

【無料で使える】ChatGPT-4(GPT-4o)の特徴や活用事例、使い方を完全網羅!

GPT-4(GPT-4o)は文章・画像・音声に対応の、回答の正確性や多様な機能が特徴のAIモデルです。本記事では、GPT-4oの基礎知識や機能、活用方法などを解説します。本記事を…

②日本語でも会話できる

ChatGPTのボイスモードは日本語にも対応しており、流暢な会話が可能です。

上記のように、人間とほとんど変わらないレベルで日本語も話せます。

「英語は上手だが日本が下手」というAIは多いですが、ChatGPTのボイスモードは例外です。

ボイスモードは、日本人でも使いやすい生成AIとして注目を集めています。

③音声表現が豊か

ボイスモードでは、表現豊かな音声を発せるため、より人間に近い会話が可能です。

たとえば、以下の動画のように、まるで人間のように感情を表現したり、歌を歌えたりできます。

感情の表現や歌う表現によって、ボイスモードの活用はさらに幅広くなります。

ボイスモードを使用する際には、表現の豊かさにも着目してみましょう。

④リアルタイムでデバイス画面や撮影動画を理解できる

ChatGPTのボイスモードは、スマホカメラで撮影している動画や、デバイスで見ている画面を認識できます。

たとえば、以下の動画のように、タブレットで今見ている数学問題を解く使い方ができます。

他にも、目の前の光景を認識し、状況にあった会話も可能です。

ChatGPTのボイスモードでは、高度な音声能力だけでなく、動画認識能力も利用できるのです。

⑤オンライン会議へ参加できる

ボイスモードはミーティングへリアルタイムで参加し、人間のように参加者と対話できます。

添付している動画では、Zoom会議にChatGPTが参加している様子です。会議の途中でChatGPTが会議の内容を要約し、アイデアを提供しています。

また、会議の議事録を作成したり、会議をリアルタイムで翻訳できたりします。

国際的な会議の参加ハードルが下がるだけでなく、革新的なアイデアを提供してくれる強力なパートナーになるでしょう。

ChatGPTのボイスモードが利用できるのはいつから?

ChatGPTのボイスモードは、2024年9月25日〜29日の間に徐々に解放されることが発表されています。
※デバイスの画面共有機能、会議参加機能はまだ実装されない
ボイスモードが実装されるのは有料プランのChatGPT PlusとTeamのみ

OpenAI公式Xが今週中にリリースすると発表している画像
出典:OpenAI公式X


まだボイスモードが開放されていない方は、一度ChatGPTのアプリをアンインストールして、再インストールすることで使えるようになる可能性があります。ぜひ試してみてください。

もうすぐ使えるようになるボイスモードの使い方は、次の章で解説します。

ChatGPTのボイスモードの使い方

ChatGPTのボイスモードは、スマートフォン、もしくはiPadのようなタブレットのアプリで使用します。アプリを開いたら、以下の手順で操作を行ってください。

  1. プロンプト入力画面の右側をクリック
  2. 音声を選択
  3. 話しかける
ボイスモードを使う手順

ボイスモードが起動したら、後は会話をするだけです。通常のテキストプロンプトとは違い、人間と会話するように意識してみてください。

【実際の使用例】ChatGPTのボイスモードの活用例

本章では、すでにボイスモードが解放されたユーザーによる実用例を3つ紹介します。

まずは、筆者が実際にボイスモードを使用している様子です。ChatGPTに関西弁で話してもらっています。

次に、多数の言語を切り替えながら会話している様子です。

主要な言語であればボイスモードで対応できるため、海外の方と会話する時に使用できます。

最後に、ゲーム画面をChatGPTに見せて、テキストを翻訳してもらう使い方です。動画認識はまだ一般リリースされていませんが、一部ユーザーのみ利用できます。

ChatGPTのボイスモードのセキュリティは大丈夫?

OpenAIはChatGPTのボイスモードに対して、プライバシー保護と安全性確保のための厳格な対策を実施しています。

音声技術の悪用を防ぎ、ユーザーのプライバシーを守るとともに、倫理的な問題や法的リスクを最小限に抑えるためです。

具体的には、以下の対策が取られています。

  1. 45言語にわたる100人以上の外部レッドチーム(セキュリティ対策専門チーム)によるテスト実施
  2. モデルが4つの音声のみを使用するよう訓練
  3. 上記4つの音声以外の出力をブロックするシステムの構築
  4. 暴力的なコンテンツや著作権で保護されたコンテンツの要求をブロックする仕組みの実装

これらの対策により、ボイスモードは高度な安全性とプライバシー保護を確保しつつ、幅広い言語でのサービス提供を可能にしています。

ChatGPTのボイスモードの仕組み

ChatGPTのボイスモードでは、テキスト、視覚、音声を一度に処理することで、高速応答を可能にしています。

ボイスモードの登場前は、音声を処理して回答を出力するまでに、3つの別々のモデルが使用されていました。この方法では、音声入力から最終的な音声出力までの処理をそれぞれのモデルが別々に行っており、処理時間が長いという課題があります。

また、音声のトーンや複数の話者、背景ノイズなどの情報が失われ、笑い声や歌、感情表現などの出力ができないという制限もあります。

しかし新しいボイスモードでは、ひとつのモデルですべての情報を処理するため、人間の会話速度とほぼ同じの応答速度平均320ミリ秒(0.32秒)を実現したのです。

AI業界のリードカンパニーであるOpenAIの開発力が、ボイスモードを生み出したといえるでしょう。

ChatGPTのボイスモードを活用して生活・仕事の質を向上させよう!

ChatGPTのボイスモードは、従来の会話可能なAIとは一線を画す機能です。これまで、ChatGPTのボイスモードほど自然に、かつ流暢に会話できるAIは存在しませんでした。

ボイスモードは、2024年秋までに全有料ユーザーに解放される予定です。

弊社SHIFT AIでは、ChatGPTの使い方を解説する無料セミナーを開催しています。

参加者には、ChatGPTマスターロードマップや業務効率化ガイドなど、実践的な特典も多数ご用意しています。

AIツールを活用してビジネスを加速させたい方は、以下のリンクからセミナーの詳細をご確認ください。

【無料】30,000人以上が受講!

記事を書いた人

SHIFT AI TIMES編集長

大城一輝

フリーランスとしてライター、ディレクター、生成AIコンサルタントとして活動している。AI活用の講師も多数経験。
SHIFT AIではオウンドメディア(SHIFT AI TIMES)の編集長を担当。
また、SHIFT AIのモデレーターとしてコミュニティ運営や講師にも携わっている。
G検定・生成AIパスポート・Generative AI Test合格
Google AI Essentials修了
ノーコード生成AIツール「Create.xyz」公式アンバサダー
Xはこちら
Linkedinはこちら