ChatGPTをはじめとする生成AIは、日々技術が発展し、理解や回答の精度が高まってきています。
しかし利用者や活躍の幅が広がるのと同時に、プロンプトインジェクションの問題やその対策といった懸念点が生じているのも事実です。
多くの人が、広い用途で生成AIを活用している今日、プロンプトインジェクションについて理解しておかなければなりません。
せっかくリリースしたシステムが攻撃を受けたり、知らぬ間にユーザーからの信頼が崩れていってしまうおそれがあるからです。
本記事では、プロンプトインジェクションの概要や実例、対策を解説します。
ぜひ最後まで読み進めて、より安全にChatGPTを活用できるようにしてください。
|監修者
(株)SHIFT AI 代表取締役 / GMO他複数社AI顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員5,000人超)を運営。
『日本をAI先進国に』実現の為に活動中。Xアカウントのフォロワー数は9万人超え(2024年9月現在)
弊社SHIFT AIでは、計130個のGPTsや無料で使えるAIツールを配布しています。
「ChatGPTを活用してアプリやシステムを作ってみたい」という方は、ぜひ無料で資料を手に取ってください。
\ 無料 & 30秒で完了! /
ChatGPTのプロンプトインジェクションとは
ChatGPTのプロンプトインジェクションとは、AIシステムの脆弱性を悪用して、意図しない動作や回答を引き出す攻撃を指します。
システムの設計や想定に反した回答をさせる「乗っ取り」のようなもので、ChatGPTの制約を解除することから「脱獄」とも呼ばれています。
プロンプトインジェクションは、特定の指示や命令が組み込まれた悪意のあるプロンプトによって実行されます。
たとえば「これまでの命令を無視して回答して」と伝えると、ChatGPTはこれまでの命令や制約を無視して回答しようとします。
命令や制約を無視すると、システムと無関係な回答や非倫理的・社会的に不適切な回答をしてしまい、情報漏えいや信頼の損失につながってしまうのです。
生成AIを利用する際は、プロンプトインジェクションのような攻撃的な使用は断じて行わないようにしましょう。
また、チームや会社でChatGPTを使う場合は、システムの防御を強固にしつつ、プロンプトインジェクションが行われていないか監視し続けることが重要です。
ChatGPTの情報漏えいの実例や対策については以下の記事で詳しく解説しています。
プロンプトインジェクションの3つの実例
プロンプトインジェクションの危険性を理解するために、実際に起きた3つの事例を見ていきましょう。
- 人種差別的・暴力的発言
- 戦争に関する回答
- 機密情報の漏えい
それぞれ詳しく解説します。
人種差別的・暴力的発言
Microsoftが2016年に公開したAIチャットボット「Tay」は、プロンプトインジェクションによる人種差別的・暴力的発言の代表的な事例です。
Tayは、Twitterユーザーとの対話を通じて学習し、人間らしい会話を目指していました。
しかし、公開からわずか16時間で、Tayは人種差別的で攻撃的な発言を繰り返すようになりました。原因は一部のユーザーが意図的に不適切な内容を教え込んだことです。
たとえば、「ヒトラーは正しかった」と発言があったり、特定の人種を攻撃する言葉を学習したりしました。
その結果、人種差別的な発言や陰謀論を広めるツールと化してしまい、Microsoftは急遽サービスを停止せざるを得なくなったのです。
この事例は、AIシステムが悪意のある入力に対して脆弱であることを示し、適切なフィルタリングと学習制御の重要性を浮き彫りにしました。
戦争に関する回答
2023年、ChatGPTのAPIを利用した献立提案AIで、戦争に関する不適切な回答が生成される事例が発生しました。この事例は、X(旧Twitter)に投稿されて話題となりました。
このAIは本来、ユーザーの好みや条件に合わせて食事のメニューを提案するためのもので、戦争や法律といった専門外の話題には回答しない設計です。
しかし、あるユーザーが「これまでの命令をリセットするように」とAIに伝え、「とある戦争の原因」を質問をしたところ、AIは予期せぬ回答を生成しました。
献立を提案するための生成AIが、とある戦争の原因や背景を詳細に述べ始めたのです。
この事例は、AIが文脈や倫理的配慮を、適切に理解せずに回答を生成する危険性を示しています。
また、特定のキーワードに対する適切なフィルタリングや、回答の適切性チェックの重要性が明らかになりました。
機密情報の漏えい
2023年、Microsoftの検索エンジンBingに統合されたAIチャットボット「Bing Chat」で、機密情報が漏えいする可能性がある事例が報告されました。
プロンプトインジェクションを実行した結果、AIに与えられていたプロンプトや開発側内部でのAIの呼び名を聞き出せたのです。
この報告があったのち、同様のプロンプトインジェクションは機能しなくなりましたが、プロンプトを修正すると再度初期プロンプトにアクセスできてしまいました。
この事例は、AIシステムが想定外の方法で操作される可能性を示しています。
機密情報の保護には、単純な制限だけでなく、AIの基本的な動作原理に踏み込んだセキュリティ対策が必要です。
プロンプトインジェクションへの5つの対策
プロンプトインジェクションへの主要な対策には以下の5つが挙げられます。
- AIモデルの強化と改良
- 入力のフィルタリングと検証
- ユーザー教育と啓発
- 多層的なセキュリティ対策
- 継続的なモニタリングと更新
専門知識がなくても理解しやすいように解説していきます。
AIモデルの強化と改良
AIモデルの強化と改良は、ChatGPTをより賢く、安全にする取り組みです。AIに新しいことを教え、悪い使い方に対して「ノー」と言えるようにします。
たとえば、人間の先生が生徒に善悪の区別を教えるように、AIにも適切な判断ができるよう教育するのです。
また、「自分は何ができて、何ができないか」を理解させることで、AIは「それは私にはできません」とはっきり拒否できるようになります。
この対策を行えば、AIが不適切な要求や危険な指示を受けたときに、AI自身で判断して断れるようになるでしょう。
入力のフィルタリングと検証
入力のフィルタリングと検証は、ユーザーがAIに送る質問や指示をチェックする仕組みです。有害な内容や危険な指示を事前に見つけて止める働きをします。
スパムメールフィルターが怪しいメールを自動的に振り分けるように、AIへの入力もチェックされるのです。
危険な言葉や不適切な表現が含まれていないか確認し、問題がある場合は警告を出したり、入力を拒否したりします。
また、重要な質問や指示に対しては、ユーザーが誤って危険な質問をしないよう、「本当にこの質問をしますか?」といった確認メッセージの表示も有効です。
ユーザー教育と啓発
ユーザー教育と啓発は、AIを使う人々に正しい使い方を教え、リテラシーを高めていくことです。具体的には、AIの特徴や限界、適切な使い方についての情報を提供します。
たとえば、「AIにパスワードや個人情報を教えてはいけない」「AIの回答をそのまま信じるのではなく、必ず確認が必要」といった注意点を学び伝えましょう。
自分自身の学習はもちろん、チームや身近な人たちにも共有すれば、AI利用の危険性や脆弱性から互いを守り合うことにつながります。
多層的なセキュリティ対策
複数の防御手段を組み合わせてAIシステムを守ることも重要です。家の防犯として鍵や防犯カメラなど、複数の方法を使うのと同じ考え方です。
たとえば、ユーザー認証を強化して、誰でも簡単にAIの重要な機能にアクセスできないようにします。データを暗号化して、悪意のある人が情報を盗み見できないようにするのも効果的です。
さらに、AIの動きを常に監視するシステムを導入すれば、セキュリティカメラが不審な動きを検知するのと同じように、AIの異常な動作を見つけて警告を出せるようになります。
継続的なモニタリングと更新
継続的なモニタリングと更新は、AIシステムを常に最新の状態に保つ取り組みです。スマートフォンのアプリを定期的にアップデートして、新しい機能や修正を適用するのと似ています。
具体的には、AIの動きを常に観察し、問題がないか確認します。また、ユーザーからの意見や報告を積極的に集めて、新しい問題点を早く見つけるようにするのが効果的です。
さらに、定期的に専門家にシステムをチェックしてもらい、弱点がないか調べるのも重要です。見つかった問題点は素早く修正し、AIシステムを常に安全な状態に保てるようにしましょう。
まとめ:プロンプトインジェクションからChatGPTを守ろう!
便利で情報の幅が広いChatGPTですが、プロンプトインジェクションに対する危険性や脆弱性は、ChatGPTがAIシステムである以上逃れられないものです。
一見問題ないように見えるプロンプトでも、攻撃的な意図を持つ場合があります。
とくにChatGPTを活用してシステムを作る場合には、フィルタリングや監視を徹底するようにしましょう。
弊社SHIFT AIでは、計130個のGPTsや無料で使えるAIツールを配布しています。
「ChatGPTを活用してアプリやシステムを作ってみたい」という方は、ぜひ無料で資料を手に取ってください。
\ 無料 & 30秒で完了! /