ChatGPTで画像認識する方法!基本から応用の使い方まで実演
ChatGPTの画像認識機能に興味はあるものの、具体的な使い方がわからず、ビジネスや日常生活でどう活用できるか悩んでいませんか。
ChatGPTの画像認識能力は非常に強力です。この機能を活用できないままでは、業務効率化の機会を逃してしまう可能性があるでしょう。
本記事では、ChatGPTの画像認識モデル「GPT-4V」の基本的な仕組みから、実践的な使用方法、さらにはAPIを通じた高度な活用方法まで、幅広く解説します。
この記事を読むことで、ChatGPTの画像認識機能を自信をもって使いこなし、業務の効率化や新しいビジネスチャンスの創出にも活用できるようになるでしょう。
監修者
SHIFT AI代表 木内翔大
(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員5,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9万人超え(2024年9月現在)
弊社SHIFT AIでは、生成AIを効果的に活用したい方々を対象に、実践的なセミナーを開催しております。
ぜひ、以下のリンクから確認してみてください。
目次
ChatGPTの画像認識モデル「GPT-4V」とは
ChatGPTの画像認識モデル「GPT-4V(ジーピーティーフォー・ブイ)」は、画像内のオブジェクトやテキストを高精度に認識し、ユーザーからの指示にもとづいてさまざまなタスクを実行する能力をもっています。
従来のChatGPTは、テキストベースの対話や情報処理に特化していましたが、GPT-4Vの導入により、画像データの処理が可能になりました。テキスト以外に複数の情報を処理できるAIをマルチモーダルモデルといいます。
GPT-4Vを活用することで、料理のレシピ画像から調理手順を説明したり、建築図面から空間の特徴を分析したりできます。また、写真に写る人物の表情や姿勢から感情を推測したり、複雑なグラフや図表からデータの傾向を読み取れます。
このように、GPT-4Vは単なる画像認識モデルではなく、画像とテキストを組み合わせた高度な分析や創造的なタスクを実行できる生成AIなのです。
画像認識モデルのGPT-4Vを活用できる、ChatGPTの最新モデルGPT-4oについては、以下の記事で詳しく解説しています。
【無料で使える】ChatGPT-4(GPT-4o)の特徴や活用事例、使い方を完全網羅!
GPT-4(GPT-4o)は文章・画像・音声に対応の、回答の正確性や多様な機能が特徴のAIモデルです。本記事では、GPT-4oの基礎知識や機能、活用方法などを解説します。本記事を読めば、ChatGPTで業務効率化を一気に進められるでしょう。
ChatGPTの画像認識は無料でも使える
ChatGPTの画像認識は、基本的に無料でも利用できます。しかし、無料版には一定の制限があることを理解しておく必要があります。
無料版のChatGPTでは、画像認識を含む高度な機能の使用回数に制限があります。具体的には、5時間に約10回程度しか会話を行えません。
より頻繁に、あるいは業務目的で画像認識機能を活用したい場合は、有料プランであるChatGPT Plusへの加入を検討しましょう。
ChatGPT Plusは月額20ドルで提供されており、利用回数の制限がなくなるだけでなく、最新のGPTモデルへの優先的なアクセスや、利用できる機能が増えるなどの特典が付いています。
ChatGPT Plusへの加入を検討している方は、以下の記事を確認してみてください。
関連記事:【画像あり】ChatGPT Plusと無料版の違いは?料金や登録方法を解説
ChatGPTで画像認識を行う方法
本章では、実際にChatGPTで画像認識を行う具体的な手順を説明します。この過程は主に二つのステップから成り立っています。
それでは、それぞれのステップの詳細を確認してみましょう。
Step1:画像を提供する
ChatGPTで画像認識を行う最初のステップとして、分析したい画像をChatGPTに提供しましょう。画像を提供するだけで、自動的にGPT-4Vが起動します。
画像の提供方法は、パソコンのローカルに保存されている画像を提供する方法と、Google Driveに保存されている画像を提供する方法の2種類があります。
選択した画像は、ChatGPTのプロンプト入力画面に表示されます。画像の提供が完了したら、次のステップに進みましょう。
Step2:プロンプトを提供する
画像の提供が完了したら、次は実行したい命令文(プロンプト)を入力します。ChatGPTに何を分析してほしいか、どのような情報を得たいかを明確に伝えることが重要です。
たとえば、集合写真を提供した場合、「画像に写っている人物の数を数えてください」というプロンプトを入力すると、ChatGPTは画像内の人物を認識し、その総数を出力します。
プロンプトの作成では、具体的な指示を心がけることが重要です。「この画像について説明してください」のような漠然とした指示よりも、「この画像に写っている建物の建築様式を特定し、その特徴を3つ挙げてください」のように具体的な指示を与えることで、より精度の高い、有用な回答を得られます。
【実演】ChatGPTでの画像認識活用例
実際にChatGPTの画像認識を活用する例を紹介します。
- 文字起こし
- デザインのフィードバック
- コードの生成
- 提供画像から新たな画像を生成
それぞれの活用方法を確認して、具体的に業務で活用するイメージをしてみましょう。
文字起こし
ChatGPTの画像認識では、画像内のテキストを文字起こしできます。テキストの認識能力は非常に高く、英語だけでなく日本語でも問題なく文字起こしできます。
プロンプトはシンプルに「文字起こししてください」と入力するだけで、画像内のテキストを文字起こししてくれます。
この方法は、領収書内のテキストや数字を入力したいときや、コピーできない形式のPDF内の文章を別のファイルに転記したいときなどに有効です。
デザインのフィードバック
ChatGPTではテキストだけでなく、画像内のデザイン(色や文字の配置・フォントなど)も認識し、適切なフィードバックを受けられます。
上記のように、フィードバックして欲しい画像を提供して「デザインを確認して、[デザインの方向性]にするための修正点を列挙してください」と入力します。
そうすると、ChatGPTが多角的にデザインを確認し、フィードバックを出力します。
また、プレゼンテーションの資料やWebサイトのデザインに関しても同様に活用できます。さまざまな場面で応用できる方法なので、ぜひ試してみてください。
コードの生成
ChatGPTにアプリ・サイトの画像を提供することで、それを再現するためのコードの生成も可能です。
上記では、Macの計算機アプリの画像を提供して、まったく同じデザイン・機能のアプリを再現するためのコードを生成しています。
なお、最初に生成したコードではうまく動かないケースが多いです。そのため、何度か対話を重ね、エラーを解消しながら正確に動くコードに近づけましょう。
実際に作成されたアプリは以下のとおりです。今回の場合は単純なアプリであるため、最初に生成されたコードのみでうまく起動しました。
エンジニアだけでなく、プログラミングができない方でも利用できる使い方です。再現したいアプリやサイトがあれば、ChatGPTに頼ってみましょう。
また、ChatGPTでコードを生成する方法については、以下の記事でより詳細に解説しています。
関連記事:ChatGPTでコード生成をもっと効率的に!テクニックや活用法についても紹介
提供画像から新たな画像を生成
再現したい画像がある場合、ChatGPTの画像認識機能を活用することで、似た画像を生成できます。この方法は、GPT-4Vと、画像生成AIであるDALL•E 3の合わせ技です。
画像の提供とともに、以下のプロンプトを入力してみてください。
STEP1:この写真をDALL•E 3で完全に再現するためのプロンプトを考えて、できるだけ詳細に、英語でユーザーにテキストで提供してください。
STEP2:プロンプトを提供した後、次のステップとして、そのプロンプトを活用して画像をDALL•E 3で再現してください。
このように、提供した画像を再現できます。また、以下のように、画像のテイストを変えて生成する使い方もあります。たとえば、抽象画風に再現するためには、前述したプロンプトを以下のように変更します。
STEP1:この写真をDALL•E 3でピクセルアート風に再現するためのプロンプトを考えて、できるだけ詳細に、英語でユーザーにテキストで提供してください。
STEP2:プロンプトを提供した後、次のステップとして、そのプロンプトを活用して画像をDALL•E 3で再現してください。
このように、ChatGPTの画像認識は、DALL•E 3と組み合わせることで理想の画像を生成しやすくなります。広告バナーやSNSのプロモーション用に使うための画像を簡単に用意できるため、ぜひ活用してみてください。
なお、ChatGPTの画像生成AI「DALL•E 3」については、以下の記事で詳しく解説しています。
関連記事:【実例あり】ChatGPTで画像生成する4ステップ・6つのコツを解説
ChatGPTの画像認識モデルはAPIでも利用可能
ChatGPTの画像認識モデル「GPT-4V」は、APIを通じても利用可能です。APIを利用することで、自社のアプリケーションやサービスに直接画像認識機能を組み込めるようになります。
最新のモデルであるGPT-4oは、マルチモーダル機能をもち、GPT-4 Turboと比較してより高速で低コストな処理が可能です。
APIの価格設定は、2024年8月16日時点で以下のとおりです。
モデル名 | 特徴 | 入力トークン価格(/1M) | 出力トークン価格(/1M) | Batch API※割引 |
---|---|---|---|---|
GPT-4o | – 最も高度なマルチモーダルモデル – 強力な画像認識能力 – 128Kコンテキスト- 2023年10月までの知識 | $5.00 | $15.00 | 50% |
GPT-4o-2024-08-06 | – GPT-4oの更新版 – より低コストに | $2.50 | $10.00 | 50% |
GPT-4o mini | – 最もコスト効率の高い小型モデル – GPT-3.5 Turboより高性能・低コスト – 画像認識能力あり – 128Kコンテキスト – 2023年10月までの知識 | $0.150 | $0.600 | 50% |
GPT-4o-mini-2024-07-18 | – GPT-4o miniの更新版 | $0.150 | $0.600 | 50% |
GPT-4oでは、コスト効率の高いGPT-4o miniも提供されており、GPT-3.5 Turboよりも優れた性能と低コストを実現しています。これらのAPIを活用することで、企業は自社のニーズに合わせた画像認識機能を有したサービス・アプリを構築できます。
ChatGPTの画像認識モデル「GPT-4V」で生産性UP!
ChatGPTの画像認識モデル「GPT-4V」を活用することで、本記事で解説したように、文字起こしやコード生成、画像の再現などが可能になります。
また、APIを活用することで自社サービス・アプリなどに強力な画像認識機能を搭載でき、ビジネスの幅を広げられます。
本記事を参考にChatGPTで画像認識を行い、業務を効率化させてみてください。
弊社SHIFT AIでは、ChatGPTの画像認識機能の使い方を含め、AIリテラシー向上のための教材作成やワークショップなどを行うサービスを展開しています。
生成AIに関するノウハウを取り入れたい方は、ぜひ以下のセミナーにご参加ください。
AI人材の一歩目!
記事を書いた人
SHIFT AI編集部
AI人材の一歩目!
無料セミナーに参加する