2024年5月14日に、ChatGPTの開発会社OpenAIより「GPT-4o(ジーピーティーフォー・オー)」というAIモデルが発表されました。
GPT-4oは、高い性能や高速応答、音声・動画認識能力などがSNSやインターネットで話題になっています。しかし、GPT-4oの話題を見て「性能が高いのはわかったが、具体的に何がすごいのかわからない」と疑問をもっている方は多いでしょう。
本記事では、GPT-4oの基本情報や、従来のChatGPTから進化したポイント、具体的な活用例などを解説しています。
本記事を読めば、GPT-4oの全体像を把握でき、業務を効率化できるようになるでしょう。
GPT-4o(ジーピーティーフォー・オー)とは?
GPT-4oは、2024年5月14日(日本時間)にOpenAIが開催した「OpenAI Spring Update」にて発表されたAIモデルです。前身のGPT-4 Turboのアップグレードモデルであり、OpenAIが発表している現行モデルの中では最新です。
GPT-4oは、他の生成AIと比較して高い性能を有している点以外にも、音声認識や動画認識機能を使ったデモ動画がとくに話題になっています。
さらに、無料ユーザーにもGPT-4oは解放されており、2024年5月15日時点で全ユーザーが利用可能です。
SNS上では、すでにGPT-4oの性能の高さに驚く声が多数上がっています。次の章から、GPT-4oの特徴について詳しく解説します。
GPT-4oの特徴8選
GPT-4oの特徴は、以下の8つです。
- 他のLLMよりも高性能
- 応答が高速
- テキスト・画像・音声・動画を同時処理
- 感情を理解する音声認識機能
- リアルタイムの動画認識
- 高度なOCR
- 高度な画像生成
- API利用料金が従来の半額
本章では、それぞれの特徴についてデモ動画や実際に使用した画像を用いて解説します。
他のLLMよりも高性能
GPT-4oは、GPT-4や他社のAIモデルと比較して性能が高いモデルです。
上記グラフの横軸はベンチマークテスト※の名前であり、GPT-4oは多くのテストで主要なAIモデルを超えていることがわかります。
※:生成AIの性能を測定するテスト。テストごとに測定する項目が異なる。
たとえば、数学的演算能力を評価するために使用されるベンチマークテストであるMATHでは、他のモデルと比較して大きく性能が向上しています。
実際、東京大学の数学問題に回答できたという報告があるため、高い数学能力を有していることがわかります。
応答が高速
GPT-4oは、高速に回答を出力できる点が特徴です。
従来の有料版ChatGPTで利用できていたGPT-4は、他社モデルと比較して出力速度が早いとはいえませんでした。
しかし、GPT-4oになって出力速度が高速になり、使い勝手が向上しています。
具体的には、API※を使った速度で約2倍といわれています。ChatGPTでの使用に関して具体的な数字は出ていませんが、体感では2〜3倍の速度で生成されてます。
※異なるソフトウェアを連携して使うための仕組み(例:チャットボットにGPTを組み込むためにAPIを利用する)
出力が高速化されたことで、ストレスフリーでChatGPTを利用できるようになりました。
また、GPTのAPIはさまざまなアプリで利用されているため、ChatGPTに限らず幅広いサービスで利便性が向上するでしょう。
テキスト・画像・音声・動画を同時処理
GPT-4oはテキスト・画像・音声・動画を同時に処理できるマルチモーダルAI※です。GPT-4oのoは「omni:すべて」という英単語であり、複数の情報を同時に処理する特性を表しています。
※:テキスト以外にも、音声や画像など複数の情報を処理できるAI
同時に処理することによるメリットは、処理の高速化です。従来のiOSアプリで、ChatGPTと音声会話する場面を考えてみましょう。
従来では、ChatGPTが入力された音声をテキストに変換した後、さらにテキストを音声に変換して出力する処理が必要でした。
複数の情報を個別に処理するため、従来の仕組みでは時間がかかっていたのです。
一方で、GPT-4oはテキストと音声を同時に処理することで、応答が高速になる仕組みです。
動画のように、リアルタイムで翻訳タスクを実行できるほど高速に応対できます。
なお、動画や音声認識機能は2024年5月15日時点で実装されておらず、順次リリースされる予定です。
感情を理解する音声認識機能
GPT-4oは音声から感情を理解します。また、感情があるかのような音声も生成できるため、人間と遜色ない対話が可能です。
添付している動画の56秒からの対話を見ると、ChatGPTが音声に感情を乗せていることが確認できます。
より自然な対話が可能になったことで、音声を使用した業務にChatGPTを適用する機会が増えるでしょう。
たとえば、カスタマーサポートにGPT-4oを組み込むことで、相手に不自然な感覚を与えずに通話できるような活用方法が考えられます。
ただし、音声認識機能は2024年5月15日時点では一般ユーザーに解放されておらず、今後順次実装される予定です。
リアルタイムの動画認識
GPT-4oを搭載したChatGPTでは、リアルタイムで目の前の風景や、タブレットやPCの画面を共有しながらの対話が可能です。
動画では、目の前の風景をChatGPTに見せながら、状況を解説してもらっています。
ChatGPTがリアルタイムで状況を把握し、命令を実行できることで、これまで実現できなかった処理も可能になるでしょう。
また、動画ファイルそのものもアップロードできるようになりました。動画の要約やハイライトの作成などが可能になります。
ただし、リアルタイムでの動画認識機能は、2024年5月15日時点では一般ユーザーに解放されておらず、今後順次実装される予定とされています。
高度なOCR
OCRとは画像から文字を読み取る技術のことであり、GPT-4oではOCR機能の性能が従来のモデルよりも向上しています。
たとえば、前身のGPT-4では、日本語の読み取りが苦手とされていました。一方でGPT-4oでは、漫画に書かれている日本語を読み取り、状況を的確に解説できるほど読み取り能力が高くなっています。
OCR機能が向上したため、看板に書かれた英語を即座に翻訳したり、領収書の仕訳をしたりといったタスクの精度が向上し、より利便性が高っています。
高度な画像生成
GPT-4oが搭載されたChatGPTでは、画像生成能力も向上しました。
たとえば、2つの画像を合成したり、一貫性をもった画像の生成をしたりできるようになりました。以下の画像では、同じ女の子のイラストが二枚生成されています。
従来のGPT-4では、同じキャラクターを生成することは難しかったため、大きな進化といえます。
また、3Dモデルの作成や、画像の一部のみの修正も可能です。GPT-4oが搭載されたChatGPTは、画像生成の分野でも利便性を向上させています。
API利用料金が従来の半額
GPT-4oをAPIで使用する際の料金は、従来のGPT-4の半額です。
また、日本語に関してはトークン数が圧縮され、トークン数の計算が従来の1.4分の1になりました。つまり、従来では100トークンで計算されていた文字数が約71トークンとして計算されるため、トークン数で料金がかかるAPIの利用がお得になるのです。
トークン数の圧縮と、API利用料金の半額を組み合わせると、GPT-4oはGPT-4の約64%OFF料金でAPIを利用できます※。
※:100(%) – (1/1.4 × 50(%)) ≒ 64(%)
性能が高まっているだけでなく利用料金も下がっているため、APIを利用して開発を行う方にとっても嬉しいアップデートです。
参考:OpenAI(Pricing)
【無料ユーザーでも利用可能】GPT-4oの使い方を解説!
GPT-4oが話題になっている理由のひとつに、無料ユーザーでも利用できることが挙げられます。
さらに今回の発表では、GPT-4o以外にも無料ユーザーが利用できる機能が増加すると発表されました。
本章ではGPT-4oの使い方と、無料ユーザーに解放される機能について詳しく解説します。
ログインしたら即利用可能に
GPT-4oはすべての無料ユーザー・有料ユーザーに提供されており、ログインすると使える状態です。
添付画像のように、画面左上のモデル選択画面からGPT-4oを選択すれば利用を開始できます。
なお、スマホアプリからでもGPT-4oを使用できます。
特別な設定をすることなく利用できるため、気軽に試してみましょう。
無料版はGPT-4o以外にも利用できる機能が増加
GPT-4oの発表と同時に、無料ユーザーが利用できる機能が拡張されることも発表されました。
以下に、無料ユーザーが利用できるようになる機能を示します。
項目 | 無料ユーザー | 有料ユーザー |
GPT-4oの利用 | ○(回数制限あり) | ○(回数制限ありだが無料ユーザーの5倍) |
インターネット検索 | ○ | ○ |
データの分析・チャート作成 | ○ | ○ |
画像認識機能 | ○ | ○ |
ファイルのアップロード | ○ | ○ |
メモリ機能 | ○ | ○ |
GPTストアの利用(他人のGPTsを使える) | ○ | ○ |
GPTsの作成 | × | ○ |
GPT-4の利用 | × | ○ |
画像生成(DALL•E) | × | ○ |
音声会話 | × | ○ |
従来の無料版ChatGPTでは、基本的にテキストベースの対話しかできませんでした。しかしこれからは、インターネット検索やデータ分析、画像認識機能など、さまざまな機能を利用できるようになります。
とくに注目すべき点は、特定のタスクに特化したチャットボットであるGPTsを利用できる点です。
無料版ではGPTsの自作はできないものの、他の人が作成したGPTsを利用できます。GPTsは数百万個リリースされているため、自分にあったGPTsを見つけて作業を大幅に効率化させてみましょう。
デスクトップアプリもリリース予定
OpenAI Spring Updateでは、ChatGPTのデスクトップアプリがリリースされることも発表されました。
デスクトップアプリでは、ブラウザを使わなくてもChatGPTを利用できるようになります。Mac版とWindows版がリリースされ、Mac版は2024年5月14日以降数週間以内、Windows版は2024年後半にリリースが予定されています。
※Mac版は利用可能ユーザーが徐々に増えている
デスクトップアプリのメリットは、ブラウザを使わずChatGPTを利用できる点と「option+space※」のショートカットキーによって瞬時にChatGPTを呼び出せる点です。
※Mac版の場合
デスクトップアプリとブラウザ版ChatGPTの相違点を以下にまとめます。アプリを導入する際の参考にしてみてください。
項目 | デスクトップ版 | ブラウザ版 |
アクセス方法 | デスクトップアプリをインストールして使用 | ウェブブラウザを使用してアクセス |
プラットフォーム | Windows, macOS | 任意のOS (Windows, macOS, Linux など) |
インターネット接続 | 必須 | 必須 |
デバイスの依存性 | インストールされたデバイスに依存 | どのデバイスからでもアクセス可能 |
アクセス性 | ショートカットで瞬時にアクセス可能 | ブラウザを開く必要あり |
デスクトップアプリのインストールはこちらから実施できます※。
※2024年5月15日時点ではMac版のみ
GPT-4oの活用事例
SNSで報告されている活用例や、実際に使用した例を用いて解説します。
- 高度なデータ解析を行う
- 顧客対応をしてもらう
- 議事録を作成する
- 領収書や書籍の文字起こし
- 教師になってもらう
- 高度な画像生成を行う
- テキストから3Dモデルを生成する
活用事例を確認して、GPT-4oの性能の高さを確認してみてください。
高度なデータ分析
GPT-4oは高速かつ精度の高いデータ分析が可能です。
従来のChatGPTでも、Advanced Data Analysisという機能でデータ解析は可能でした。そのデータ分析の性能が、GPT-4oになって向上しています。
添付している投稿では、脳データの解析をChatGPTで行っています。
解析だけでなくチャートも作成できるため、GPT-4oはビジネスにおいても活用の幅が広いAIモデルです。
顧客対応
GPT-4oの応答の速さと流暢な会話能力を応用すれば、カスタマーサポートも可能です。
添付している投稿では、1つのChatGPTが顧客役、もう1つがカスタマサポートとしてふるまっています。音声だけ聞き取ると、本当に人間が会話しているようです。
音声認識機能は、2024年5月15日時点ではリリースされていませんが、全ユーザーに提供された場合はビジネスに大きな変革をもたらすでしょう。
ミーティングのリアルタイム参加
GPT-4oはミーティングへリアルタイムで参加し、人間のように参加者と対話できます。
添付している動画では、Zoom会議にChatGPTが参加している様子です。会議の途中でChatGPTが会議の内容を要約し、アイデアを提供しています。
また、会議の議事録を作成したり、会議をリアルタイムで翻訳できたりします。国際的な会議の参加ハードルが下がるだけでなく、革新的なアイデアを提供してくれる強力なパートナーになるでしょう。
会議への参加機能は、2024年5月15日時点では全ユーザーに提供されていないため、実装を待ちましょう。
領収書や書籍の文字起こし
GPT-4oはOCR機能が強化されたため、従来では処理できなかった文字起こしのタスクもこなせます。
乗機の画像では、タクシーの領収書を文字起こしして、最終的に仕訳の例を提示してもらっています。
また、書籍の写真を撮り、ページの内容をまとめるといった活用事例もSNSで報告されています。
GPT-4oは日本語の文字起こし精度が向上したため、従来のGPT-4ではできなかったタスクも可能になりました。
勉強の教師役
GPT-4oは共有しているデバイスの画面をもとに対話ができるため、学習のサポーターとしても活用できます。
以下の動画では、タブレット上で取り組んでいる問題をChatGPTと共有し、教師として活用しています。
学生の場合は宿題の教師役、社会人の場合は難解な資料を読む際のサポーターなどとして活用できるでしょう。
ChatGPTとの画面共有機能は、2024年5月15日時点で一般ユーザーにリリースされていないため、実装を待ちましょう。
高度な画像生成を行う
GPT-4oを実装したChatGPTは画像生成の性能も向上しており、提供した画像の画風を元の構図を保ったまま再現できるようになっています。
従来のGPT-4の性能では、指定した人物の顔を保持したまま、画風(イラスト風やアニメ風など)やポーズのみを変える画像を出力することは困難でした。
しかしGPT-4oを搭載したChatGPTでは、従来では実行できなかった画像生成のタスクも可能になります。
広告業やサイト運営など、画像を多く扱う分野にとって嬉しいアップデートです。
テキストから3Dモデルを生成
GPT-4oを搭載したChatGPTでは、テキストから3Dモデルの作成も可能です。
添付している動画では、OpenAIのロゴを3Dモデル化し、回転させています。作成過程の詳細情報は記載されていませんが、GPT-4oなら3Dモデルの作成が可能であることはたしかです。
これまで専門知識が必要とされた3Dモデルの作成も、ChatGPTを利用すれば瞬時に作成できるようになります。
GPT-4oに対応したツールを使用
GPT-4oはChatGPTだけでなく、さまざまなAIツールで利用されています。
乗機の動画は、Perplexity(パープレキシティ)という検索に特化したAIツールでGPT-4oを使用している様子です。
これまでは速度を重視すると性能を犠牲になる傾向がありましたが、GPT-4oは性能と速度を両立させたモデルであるため利便性が大きく向上しました。
GPT-4oに対応しているAIツールは多数あるため、自分が使用しているツールに搭載されている場合はぜひ使用してみてください。
進化したGPT-4oで業務を効率化させよう
GPT-4oは高速出力能力や高い音声・動画認識能力などを有しており、生成AIの勢力図を大きく変える力をもっているAIモデルです。
テキストだけでなく、リアルタイムで音声や動画を認識できるため、これまでの生成AIでは実現できなかった処理も実行できます。使い方によっては、ビジネスに変革をもたらすでしょう。
また、ChatGPTを使いこなせるようになれば、GPT-4oの性能をさらに引き出せるようになります。
多くの人がChatGPTに対して「難しそう」や「使い方がわからない」と感じています。
しかし、実はポイントを押さえるだけで誰でも簡単に使いこなせるようになるのです。
以下で紹介する「ChatGPT使い方ガイド」では、ChatGPTの基礎から応用、そしてAI時代の働き方まで、初心者でもわかりやすく解説しています。
ChatGPTを使いこなして、日々の業務効率化、新しい働き方への挑戦を実現したい方は、ぜひこのガイドを手に入れてください。
- ChatGPTの基礎知識
- ChatGPTの便利な機能
- ChatGPTをさらに便利にする拡張機能やプラグイン
- ChatGPTを活用した副業の働き方
- 実践で活用できるChatGPTプロンプト(指示書)集
- GPTsとは?機能、使い方、今後の展望
- AI時代の働き方最前線!ChatGPTの次に来る自立型AI「エージェント」とは?
このガイドは5日間限定で無料プレゼントしています。
受け取り方法は、下記URLをクリックして、LINE公式アカウントを友だち追加するだけです。
この機会に、ChatGPTを使いこなせるようになりましょう!