【実演あり】ChatGPTの新機能「ボイスモード」とは？利用可能になる時期や活用例を解説

2024-07-312024-10-04

2024年7月31日、OpenAIはかねてより公表していたChatGPTの音声会話機能「Advanced Voice Mode※」を、一般ユーザーにリリースしました。そして9月24日には、本格的に一般公開が始まることが発表されています。
※以降、ボイスモードと記載

ボイスモードは、従来ChatGPTに備わっていた音声機能から進化しており、ユーザーは人間と同じ早さ、かつ自然な言葉でChatGPTと会話できます。

本記事では、ChatGPTのボイスモードについて、5つの特徴や実際に使った動画などを紹介しています。また、筆者が実際に使っている様子も紹介しています。

今のうちにボイスモードについて詳しく理解しておいて、利用できるようになった際に、すぐに使いこなせるようになっておきましょう。

｜監修者

SHIFT AI代表　　木内翔大

（株）SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ（会員5,000人超）を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9万人超え（2024年9月現在）

弊社SHIFT AIでは、ChatGPTで使えるプロンプトなどをまとめた資料を無料で配布しています。

ChatGPTをさらに使いこなしたい方は、以下のリンクから資料をダウンロードしてみてください。

＼無料 & 30秒で完了！／

資料をダウンロードする

ChatGPTのボイスモードとは？5つの特徴を解説

ChatGPTのボイスモードの特徴は以下の5つです。

GPT-4oによって人間と遜色ない速度で会話できる
日本語でも会話できる
音声表現が豊か
リアルタイムでデバイス画面や撮影動画を理解できる
オンライン会議へ参加できる

それぞれの特徴について、詳しくみてみましょう。

①GPT-4oによって人間と遜色ない速度で会話できる

ボイスモードでは、OpenAIの最高性能・高速応答モデルである「GPT-4o（ジーピーティー・フォー・オー）を利用しており、人間と同じ速度での会話を実現しています。

以下は、OpenAI社員がボイスモードを使用している様子です。

応答速度は平均320ミリ秒（0.32秒）とされており、数値で見ても人間と変わらないといいます。

従来のChatGPTにもボイスモードは搭載されていましたが、これほど高速に応答できませんでした。

新しいボイスモードによって、ChatGPTと人間のように会話できるようになります。ボイスモードを支えるGPT-4oについては、以下の記事を参考にしてみてください。

株式会社SHIFT AI

【無料で使える】ChatGPT-4（GPT-4o）の特徴や活用事例、使い方を完全網羅！ GPT-4（GPT-4o）は文章・画像・音声に対応の、回答の正確性や多様な機能が特徴のAIモデルです。本記事では、GPT-4oの基礎知識や機能、活用方法などを解説します。本記事を…

②日本語でも会話できる

ChatGPTのボイスモードは日本語にも対応しており、流暢な会話が可能です。

OpenAIの本社エンジニアによるGPT-4oの特別デモ。「この会議室を10万円でおしゃれに改装するアイディアは？」と聞くと観葉植物、クッション、室内アートと即答。レスポンスの速さ、OCRの精度、関西弁の上手さ、ラップのリズム感、などなど想像を上回る性能でした。日本が抱える社会課題解決のために、… pic.twitter.com/dMUZQLenbO
— 塩崎あきひさ【衆議院議員・愛媛1区】 (@AkihisaShiozaki) May 24, 2024

ChatGPT Advanced Voice Mode speaking Japanese (excitedly) pic.twitter.com/YDL2olQSN8
— Cristiano Giardina (@CrisGiardina) July 31, 2024

上記のように、人間とほとんど変わらないレベルで日本語も話せます。

「英語は上手だが日本が下手」というAIは多いですが、ChatGPTのボイスモードは例外です。

ボイスモードは、日本人でも使いやすい生成AIとして注目を集めています。

③音声表現が豊か

ボイスモードでは、表現豊かな音声を発せるため、より人間に近い会話が可能です。

たとえば、以下の動画のように、まるで人間のように感情を表現したり、歌を歌えたりできます。

感情の表現や歌う表現によって、ボイスモードの活用はさらに幅広くなります。

ボイスモードを使用する際には、表現の豊かさにも着目してみましょう。

④リアルタイムでデバイス画面や撮影動画を理解できる

ChatGPTのボイスモードは、スマホカメラで撮影している動画や、デバイスで見ている画面を認識できます。

たとえば、以下の動画のように、タブレットで今見ている数学問題を解く使い方ができます。

他にも、目の前の光景を認識し、状況にあった会話も可能です。

Trying #ChatGPT’s new Advanced Voice Mode that just got released in Alpha. It feels like face-timing a super knowledgeable friend, which in this case was super helpful — reassuring us with our new kitten. It can answer questions in real-time and use the camera as input too! pic.twitter.com/Xx0HCAc4To
— Manuel Sainsily (@ManuVision) July 30, 2024

ChatGPTのボイスモードでは、高度な音声能力だけでなく、動画認識能力も利用できるのです。

⑤オンライン会議へ参加できる

ボイスモードはミーティングへリアルタイムで参加し、人間のように参加者と対話できます。

添付している動画では、Zoom会議にChatGPTが参加している様子です。会議の途中でChatGPTが会議の内容を要約し、アイデアを提供しています。

また、会議の議事録を作成したり、会議をリアルタイムで翻訳できたりします。

国際的な会議の参加ハードルが下がるだけでなく、革新的なアイデアを提供してくれる強力なパートナーになるでしょう。

ChatGPTのボイスモードが利用できるのはいつから？

ChatGPTのボイスモードは、2024年9月25日〜29日の間に徐々に解放されることが発表されています。
※デバイスの画面共有機能、会議参加機能はまだ実装されない
※ボイスモードが実装されるのは有料プランのChatGPT PlusとTeamのみ

出典：OpenAI公式X

まだボイスモードが開放されていない方は、一度ChatGPTのアプリをアンインストールして、再インストールすることで使えるようになる可能性があります。ぜひ試してみてください。

もうすぐ使えるようになるボイスモードの使い方は、次の章で解説します。

ChatGPTのボイスモードの使い方

ChatGPTのボイスモードは、スマートフォン、もしくはiPadのようなタブレットのアプリで使用します。アプリを開いたら、以下の手順で操作を行ってください。

プロンプト入力画面の右側をクリック
音声を選択
話しかける

ボイスモードが起動したら、後は会話をするだけです。通常のテキストプロンプトとは違い、人間と会話するように意識してみてください。

【実際の使用例】ChatGPTのボイスモードの活用例

本章では、すでにボイスモードが解放されたユーザーによる実用例を3つ紹介します。

まずは、筆者が実際にボイスモードを使用している様子です。ChatGPTに関西弁で話してもらっています。

次に、多数の言語を切り替えながら会話している様子です。

主要な言語であればボイスモードで対応できるため、海外の方と会話する時に使用できます。

最後に、ゲーム画面をChatGPTに見せて、テキストを翻訳してもらう使い方です。動画認識はまだ一般リリースされていませんが、一部ユーザーのみ利用できます。

Real-Time Japanese translation using #ChatGPT’s new advanced voice mode + vision alpha! Yet another useful example! pic.twitter.com/wDXrgYQkZE
— Manuel Sainsily (@ManuVision) July 31, 2024

ChatGPTのボイスモードのセキュリティは大丈夫？

OpenAIはChatGPTのボイスモードに対して、プライバシー保護と安全性確保のための厳格な対策を実施しています。

音声技術の悪用を防ぎ、ユーザーのプライバシーを守るとともに、倫理的な問題や法的リスクを最小限に抑えるためです。

具体的には、以下の対策が取られています。

45言語にわたる100人以上の外部レッドチーム（セキュリティ対策専門チーム）によるテスト実施
モデルが4つの音声のみを使用するよう訓練
上記4つの音声以外の出力をブロックするシステムの構築
暴力的なコンテンツや著作権で保護されたコンテンツの要求をブロックする仕組みの実装

これらの対策により、ボイスモードは高度な安全性とプライバシー保護を確保しつつ、幅広い言語でのサービス提供を可能にしています。

ChatGPTのボイスモードの仕組み

ChatGPTのボイスモードでは、テキスト、視覚、音声を一度に処理することで、高速応答を可能にしています。

ボイスモードの登場前は、音声を処理して回答を出力するまでに、3つの別々のモデルが使用されていました。この方法では、音声入力から最終的な音声出力までの処理をそれぞれのモデルが別々に行っており、処理時間が長いという課題があります。

また、音声のトーンや複数の話者、背景ノイズなどの情報が失われ、笑い声や歌、感情表現などの出力ができないという制限もあります。

しかし新しいボイスモードでは、ひとつのモデルですべての情報を処理するため、人間の会話速度とほぼ同じの応答速度平均320ミリ秒（0.32秒）を実現したのです。

AI業界のリードカンパニーであるOpenAIの開発力が、ボイスモードを生み出したといえるでしょう。

ChatGPTのボイスモードを活用して生活・仕事の質を向上させよう！

ChatGPTのボイスモードは、従来の会話可能なAIとは一線を画す機能です。これまで、ChatGPTのボイスモードほど自然に、かつ流暢に会話できるAIは存在しませんでした。

ボイスモードは、2024年秋までに全有料ユーザーに解放される予定です。まだ利用できない方は、秋までのリリースを待ちましょう。

弊社SHIFT AIでは、ChatGPTで使えるプロンプトを175個まとめた資料を無料で配布しています。

ボイスモードが実装されたChatGPTをさらに使いこなしたい方は、以下のリンクから資料をダウンロードしてみてください。

＼無料 & 30秒で完了！／

資料をダウンロードする

この記事を書いた人

大城一輝（オオギカズキ）

フリーランスとしてライター、ディレクター、生成AIコンサルタントとして活動している。AI活用の講師も多数経験。
SHIFT AIではSEOメディア運用を担当。
また、SHIFT AIのモデレーターとしてコミュニティ運営にも携わっている。
G検定・生成AIパスポート・Generative AI Test合格
ノーコード生成AIツール「Create.xyz」公式アンバサダー