2024年7月31日、OpenAIはかねてより公表していたChatGPTの音声会話機能「Advanced Voice Mode※」を、一般ユーザーにリリースしました。
※以降、ボイスモードと記載
ボイスモードは、従来ChatGPTに備わっていた音声機能から進化しており、ユーザーは人間と同じ早さ、かつ自然な言葉でChatGPTと会話できます。
ボイスモードはすべてのユーザーに提供されていませんが、徐々に有料ユーザーに向けて提供していくと発表されています。
本記事では、ChatGPTのボイスモードについて、5つの特徴や実際に使った動画などを紹介しています。
今のうちにボイスモードについて詳しく理解しておいて、利用できるようになった際に、すぐに使いこなせるようになっておきましょう。
弊社SHIFT AIでは、ボイスモードの情報を含め、生成AI活用方法についての無料セミナーを定期的に実施しています。
AI時代に必要とされる人材になるためのヒントを得られる場として、ぜひセミナーに参加してみてください。
\ AI人材の一歩目! /
|監修者
(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員5,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9万人超え(2024年9月現在)
ChatGPTのボイスモードとは?5つの特徴を解説
ChatGPTのボイスモードの特徴は以下の5つです。
- GPT-4oによって人間と遜色ない速度で会話できる
- 日本語でも会話できる
- 音声表現が豊か
- リアルタイムでデバイス画面や撮影動画を理解できる
- オンライン会議へ参加できる
それぞれの特徴について、詳しくみてみましょう。
①GPT-4oによって人間と遜色ない速度で会話できる
ボイスモードでは、OpenAIの最高性能・高速応答モデルである「GPT-4o(ジーピーティー・フォー・オー)を利用しており、人間と同じ速度での会話を実現しています。
以下は、OpenAI社員がボイスモードを使用している様子です。
応答速度は平均320ミリ秒(0.32秒)とされており、数値で見ても人間と変わらないといいます。
従来のChatGPTにもボイスモードは搭載されていましたが、これほど高速に応答できませんでした。
新しいボイスモードによって、ChatGPTと人間のように会話できるようになります。ボイスモードを支えるGPT-4oについては、以下の記事を参考にしてみてください。
②日本語でも会話できる
ChatGPTのボイスモードは日本語にも対応しており、流暢な会話が可能です。
上記のように、人間とほとんど変わらないレベルで日本語も話せます。
「英語は上手だが日本が下手」というAIは多いですが、ChatGPTのボイスモードは例外です。
ボイスモードは、日本人でも使いやすい生成AIとして注目を集めています。
③音声表現が豊か
ボイスモードでは、表現豊かな音声を発せるため、より人間に近い会話が可能です。
たとえば、以下の動画のように、まるで人間のように感情を表現したり、歌を歌えたりできます。
感情の表現や歌う表現によって、ボイスモードの活用はさらに幅広くなります。
ボイスモードを使用する際には、表現の豊かさにも着目してみましょう。
④リアルタイムでデバイス画面や撮影動画を理解できる
ChatGPTのボイスモードは、スマホカメラで撮影している動画や、デバイスで見ている画面を認識できます。
たとえば、以下の動画のように、タブレットで今見ている数学問題を解く使い方ができます。
他にも、目の前の光景を認識し、状況にあった会話も可能です。
ChatGPTのボイスモードでは、高度な音声能力だけでなく、動画認識能力も利用できるのです。
⑤オンライン会議へ参加できる
ボイスモードはミーティングへリアルタイムで参加し、人間のように参加者と対話できます。
添付している動画では、Zoom会議にChatGPTが参加している様子です。会議の途中でChatGPTが会議の内容を要約し、アイデアを提供しています。
また、会議の議事録を作成したり、会議をリアルタイムで翻訳できたりします。
国際的な会議の参加ハードルが下がるだけでなく、革新的なアイデアを提供してくれる強力なパートナーになるでしょう。
ChatGPTのボイスモードが利用できるのはいつから?
ChatGPTのボイスモードは、2024年7月31日時点で、全ユーザーに解放されていません。
本章では、具体的なリリース時期を公式情報にもとづいて解説します。
【2024年7月31日時点】一部有料ユーザーのみ利用可能
2024年7月31日時点で、ボイスモードは一部の有料ユーザー(ChatGPT Plus)のみに解放されています※。
※デバイスの画面共有機能、会議参加機能はまだユーザーの誰にも解放されていない
ボイスモードが使用できるユーザーにはOpenAIからメールが届き、利用できるようになります。
また、ボイスモードは今後徐々に有料ユーザーに解放されると発表されています。ただし、無料ユーザーへの言及はされていないため、ボイスモードを使うには有料課金(月20ドル)が必要になると考えられます。
全有料ユーザーへの解放は2024年秋頃
ボイスモードが全有料ユーザーへ解放される時期は、OpenAI公式より2024年秋であると発表されています。
「秋」が何月なのかは公表されていません。おそらく、9〜10月ごろではないかと噂されています。
ChatGPTのボイスモードの使い方
ChatGPTのボイスモードは、スマートフォン、もしくはiPadのようなタブレットのアプリで使用します。
アプリでChatGPTを開いた後は、以下の動画のように操作しましょう。
ボイスモードが起動したら、後はChatGPTを会話をするだけです。
初めてボイスモードを使用する際は、動画のように確認画面が表示されます。ボイスモードが解放された際には、動画を参考に利用を開始してみてください。
ChatGPTのボイスモードの仕組み
ChatGPTのボイスモードでは、テキスト、視覚、音声を一度に処理することで、高速応答を可能にしています。
ボイスモードの登場前は、音声を処理して回答を出力するまでに、3つの別々のモデルが使用されていました。この方法では、音声入力から最終的な音声出力までの処理をそれぞれのモデルが別々に行っており、処理時間が長いという課題があります。
また、音声のトーンや複数の話者、背景ノイズなどの情報が失われ、笑い声や歌、感情表現などの出力ができないという制限もあります。
しかし新しいボイスモードでは、ひとつのモデルですべての情報を処理するため、人間の会話速度とほぼ同じの応答速度平均320ミリ秒(0.32秒)を実現したのです。
AI業界のリードカンパニーであるOpenAIの開発力が、ボイスモードを生み出したといえるでしょう。
ChatGPTのボイスモードのセキュリティは大丈夫?
OpenAIはChatGPTのボイスモードに対して、プライバシー保護と安全性確保のための厳格な対策を実施しています。
音声技術の悪用を防ぎ、ユーザーのプライバシーを守るとともに、倫理的な問題や法的リスクを最小限に抑えるためです。
具体的には、以下の対策が取られています。
- 45言語にわたる100人以上の外部レッドチーム(セキュリティ対策専門チーム)によるテスト実施
- モデルが4つの音声のみを使用するよう訓練
- 上記4つの音声以外の出力をブロックするシステムの構築
- 暴力的なコンテンツや著作権で保護されたコンテンツの要求をブロックする仕組みの実装
これらの対策により、ボイスモードは高度な安全性とプライバシー保護を確保しつつ、幅広い言語でのサービス提供を可能にしています。
【実際の使用例】ChatGPTのボイスモードの活用例
本章では、すでにボイスモードが解放されたユーザーによる実用例を3つ紹介します。
まずは、ゲーム画面をChatGPTに見せて、テキストを翻訳してもらう使い方です。
次に、存在しない言語で話すよう依頼して、その言語がどのように機能するか説明している様子です。
最後に、ビートボックスを行っている様子です。
紹介したように、ボイスモードをすでに使えるユーザーによって、徐々に活用例が報告されてきています。
さらに多くの活用例を知りたい方は、弊社SHIFT AIのXアカウントをご覧ください。
ChatGPTのボイスモードを活用して生活・仕事の質を向上させよう!
ChatGPTのボイスモードは、従来の会話可能なAIとは一線を画す機能です。これまで、ChatGPTのボイスモードほど自然に、かつ流暢に会話できるAIは存在しませんでした。
ボイスモードは、2024年秋までに全有料ユーザーに解放される予定です。まだ利用できない方は、秋までのリリースを待ちましょう。
弊社SHIFT AIでは、ボイスモードの活用方法を含め、生成AI活用方法についての無料セミナーを定期的に実施しています。
AI時代に必要とされる人材になるためのヒントを得られる場として、ぜひセミナーに参加してみてください。
\ AI人材の一歩目! /