ChatGPTボイスモードに視覚機能が追加!画面共有&カメラ認識が可能に
OpenAI「12 Days of OpenAI」の6日目で、ChatGPTの音声会話機能「Advanced Voice Mode※」に視覚機能が追加されました。
※以降、ボイスモードと記載
モバイルアプリで使用できる視覚機能は、旅行先でのガイドになるほか、論文や電子書籍の読解もサポートもしてくれます。
ボイスモードはもちろん視覚機能も活用すれば、日常のあらゆる場面が便利に、そしておもしろくなるでしょう。
本記事では、今回のアップデートで発表されたボイスモードの「視覚機能」についてできることや使い方を解説します。
ぜひ最後まで読み進めて、日常生活や勉強、仕事にボイスモードを活用してみてください。
監修者
SHIFT AI代表 木内翔大
(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員9,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9.7万人超え(2024年12月現在)
弊社SHIFT AIでは、ChatGPTを実践的に使いこなす人材になれる無料セミナーを開催しています。
さらに、ChatGPTで使えるプロンプトやGPTsをまとめた資料も配布中です。
「ChatGPTをもっと使えるようになりたい!」という方は、ぜひ無料で参加してみてください。
目次
Advanced Voice Modeに視覚機能が追加!
2024年12月13日、ChatGPT「Advanced Voice Mode」のアップデートが発表されました。
ボイスモードは2024年7月31日にリリースし、9月24日に一般公開された機能で、GPT-4oを用いて音声での高速応答ができます。
今回のアップデートで、一般公開時点で未実装だった視覚機能が追加されました。視覚機能はモバイルアプリ(iOS・Android)でのみ利用可能です。
>iOSアプリのインストールはこちらから
>Androidアプリのインストールはこちらから
すでにリリースされている「Advanced Voice Mode」の機能や使い方については以下の記事をご覧ください。
【実演あり】ChatGPTの新機能「ボイスモード」とは?利用可能になる時期や活用例を解説
2024年7月31日、OpenAIはかねてより公表していたChatGPTの音声会話機能「Advanced Voice Mode※」を、一般ユーザーにリリースしました。本記事では、ChatGPTのボイスモードについて、5つの特徴や実際に使った動画などを紹介しています。
視覚機能を利用できるプラン
ボイスモードの視覚機能はChatGPT Plus・Pro・Teamのプランで利用可能です。
12月13日より1週間程度で順次利用できるようになると発表されています(欧州連合・スイス・アイスランド・ノルウェー・リヒテンシュタインを除く)。
ただし、Enterprise(企業向けプラン)・Edu(教育向けプラン)のユーザーは2025年1月以降の利用開始となります。
参照:Voice mode FAQ(OpenAI)
参照:OpenAI公式X
視覚機能の利用制限
ボイスモードの視覚機能の利用には時間制限があります。
OpenAI公式ページを確認すると、制限がかかる時間は明示されていませんが、「1日単位で制限される」との記載はありました。
Video and screenshare use is limited on a per-user and per-conversation basis.
Per user, usage of video and screen share capabilities is limited for all eligible plans on a daily basis. We provide a notice as you are approaching the daily limit. Once the advanced voice daily usage limit is reached, you will no longer be able to share new video or screen share content until your usage limit resets.
Usage of video and screen share capabilities is also limited on a per-conversation basis. If you reach the conversation limit, you will be able to start a new chat to continue using video until you reach your usage limit.【日本語訳】
引用:Voice mode FAQ(OpenAI)
ビデオと画面共有の使用は、ユーザーごとおよび会話ごとに制限されます。
すべての対象プランにおいて、ビデオおよび画面共有機能の使用はユーザーごとに 1 日単位で制限されています。1 日の制限に近づくと通知が表示されます。高度な音声の 1 日の使用制限に達すると、使用制限がリセットされるまで、新しいビデオまたは画面共有コンテンツを共有できなくなります。
ビデオと画面共有機能の使用も、会話ごとに制限されます。会話の制限に達した場合は、新しいチャットを開始して、使用制限に達するまでビデオの使用を継続できます。
上記の内容から、容易に制限に達して使えなってしまうことはないと考えられます。
制限に達してしまうとチャットが途中で終了しますので、制限の通知は見逃さないようにしましょう。
アップデートで追加された2つの視覚機能
2024年12月13日のアップデートで追加された2つの視覚機能について詳しく解説します。
- ライブスクリーンシェア機能
- リアルタイムビデオ機能
どちらの機能も日常をより豊かで便利にするものなので、ぜひチェックして利用してみてください。
ライブスクリーンシェア機能
ライブスクリーンシェア機能は、画面を共有することで、ChatGPTがその画面上の内容を認識するものです。
OpenAI公式のデモビデオでは、画面がメッセージアプリであることや表示されているサンタ姿の男性を認識しています。
さらに、メッセージの質問を認識し、ユニークな回答を提案しました。
以下の動画では音声が流れます。利用環境にご注意ください。
筆者も実際に試してみました。今回は論文を画面共有してみました。
以下の動画では音声が流れます。利用環境にご注意ください。
動画内にあるように、論文のタイトルやアブストラクト(要約)をわかりやすく回答してくれました。
ライブスクリーンシェア機能では、日常的なアプリ画面はもちろん、論文や電子書籍にも活用できます。
不明なワードを聞いたり、要約してもらったりすれば、内容理解がグッとはかどるでしょう。
リアルタイムビデオ機能
リアルタイムビデオ機能は、スマホカメラで映した物や景色をChatGPTが認識できるものです。
OpenAI公式のデモビデオでは、テーブルにコーヒーセットがあることを認識し、さらにコーヒーの淹れ方を伝えています。
以下の動画では音声が流れます。利用環境にご注意ください。
筆者も実際に試してみました。1つ目の例では、デスク上にある物にカメラを向けて、その物が何かChatGPTに聞いてみました。
以下の動画では音声が流れます。利用環境にご注意ください。
フランス語での出力するよう指示しても回答できていましたし、回答だけでなく、何か必要なことがないかユーザーに問いかけてくれました。
次の例では、当メディアの記事を映しています。
以下の動画では音声が流れます。利用環境にご注意ください。
カメラで映している部分から内容を教えてくれたり、内容をさらに推論したりしています。動画内の記事を執筆したのは筆者(私)なのですが、ChatGPTの回答は合っていました。
リアルタイムビデオ機能を活用すれば、たとえば旅行時に景色をカメラで映して、観光ガイドのような役割を果たしてくれます。
さらに、目の不自由な方にとってのガイド役にもなってくれるでしょう。
ただし、視覚機能自体がモバイルアプリでしか使えないため、2024年9月に発表された「オンライン会議への参加」は未実装であると考えられます。
Advanced Voice Mode視覚機能の使い方
Advanced Voice Modeの視覚機能の使い方を、リアルタイムビデオ機能・ライブスクリーンシェア機能にわけて解説します。手順は動画でも確認できます。
ライブスクリーンシェア機能
ライブスクリーンシェア機能の利用手順は以下のとおりです。
- チャット欄の音声アイコンをタップ
- 右から2番目の「•••」をタップ
- 画面共有を開始
- (左から2番目のマイクアイコンをタップして会話開始)
まずはChatGPTチャット欄の音声アイコンをタップして、ボイスモードにアクセスします。
次に、4つのアイコンのうち、右から2番目の「•••」をタップしてください。
「•••」をタップするとポップアップが表示されるので、一番下の「Share Screen」を選びましょう。
「Share Screen」を選ぶと再度ポップアップが表示されます。下部「ブロードキャストを開始」をタップすると画面共有開始です。
最後に、マイクがOFFになっている場合は、左から2番目のマイクアイコンをタップして会話を開始しましょう。
リアルタイムビデオ機能
リアルタイムビデオ機能の利用手順は以下のとおりです。
- チャット欄の音声アイコンをタップ
- 左のビデオアイコンをタップ
- 対象にカメラを向ける
- 左から2番目のマイクアイコンをタップして会話開始
ライブスクリーンシェア機能と同様に、まずはChatGPTチャット欄の音声アイコンをタップして、ボイスモードにアクセスします。
表示された画面には以下4つのアイコンがありますので、左のビデオアイコンをタップしてください。
- ビデオ:カメラのON/OFF
- マイク:マイク入力のON/OFF
- •••:画像のアップロードや撮影、画面共有
- ×:ボイスモードの終了
準備ができたら、ChatGPTに見てほしい対象にカメラを向けましょう。
マイクがOFFになっている場合は、左から2番目のマイクアイコンをタップして会話を開始しましょう。
【期間限定】サンタボイスモードも公開!
今回のアップデートでは、Advanced Voice Modeの視覚機能に加え、サンタボイスモードも追加されました。
この機能は、ChatGPTの音声出力モードでサンタさんの音声を使えるものです。以下手順で使用します。
※例の動画はMacアプリで収録したものですが、モバイル版でも手順は同様です。
- チャット欄の音声アイコンをタップ
- 右上の設定をタップ
- Santaが表示されていればOK
ホリデーシーズンにあわせたリリースで、2025年1月上旬まで利用できます。
サンタボイスモードはモバイル・デスクトップアプリで使用可能で、初回利用時には、ボイスモードの使用制限に達していても使えます。
ただし、チャット履歴やメモリには残らず、一時的なやりとりになるので注意が必要です。
サンタさんとの会話を保存しておきたい方は、デスクトップアプリでChatGPTとの会話音声をダウンロードしてみましょう。
以下の音声フィアルはサンタボイスモードで会話した実例です。サンタさんの声はどのようなものなのか、ぜひ聞いてみてください。
音声が流れます。利用環境にご注意ください。
ChatGPTボイスモードの視覚機能で日常がグッと便利に!
ボイスモード(Advanced Voice Mode)に追加された視覚機能は、画面共有やカメラでの認識が可能です。
視覚機能を活用すれば、旅行先で景色や看板を映してChatGPTにガイド役をしてもらえます。
また、論文や電子書籍など、時間や労力を要する読解が手軽になるでしょう。
視覚機能はモバイルアプリでのみ利用可能ですので、ぜひこの機会にインストールして使ってみてください。
>iOSアプリのインストールはこちらから
>Androidアプリのインストールはこちらから
弊社SHIFT AIでは、ChatGPTを実践的に使いこなす人材になれる無料セミナーを開催しています。
さらに、ChatGPTで使えるプロンプトやGPTsをまとめた資料も配布中です。
「ChatGPTをもっと使えるようになりたい!」という方は、ぜひ無料で参加してみてください。
【無料】ChatGPTを使いこなすために!
記事を書いた人
木村凛日
フリーランスのSEOライター・ディレクター。
AIツールを活用したリサーチ・画像生成を日々行っています。
200名以上のWebライターの育成経験あり。
メディア分析・リライトも担当しています(他メディア)。
パンダが好きです。
【無料】ChatGPTを使いこなすために!
セミナーの詳細を確認する