AIは公平に、そして一貫して判断できるのか?──最新研究から読み解くAIの倫理観

「AI」と聞くと、どこか難しく、とっつきにくい印象を抱く人も多いかもしれません。けれども、AIはすでに私たちの日常のさまざまな分野で活用されています。
前編の記事では、AIの判断が人間の倫理的選択に及ぼす影響について、立正大学の山本仁志教授にお話を伺い、生成AIへの依存がもたらすリスクについて伺いました。
本稿ではその続編として、人間がAIに抱く価値観や、生成AIが備える倫理的な特徴について、近年の研究成果を紹介します。
目次
AIは誰を助けるべきなのか? 自動運転をめぐる世界3961万件の選択
人間がAIに対して抱く価値観を探る大規模な実験のひとつに、山本教授がインタビューで言及した「モラル・マシン」があります(ただし記事本文では割愛しました)。これは、AIによる自動運転車をテーマにした実験です。
この実験は、犠牲者の発生が避けられない状況で、誰を助けるかを選択する思考実験「トロッコ問題」をもとに、自動運転車が制御不能に陥った場面での判断を問いかけるものです。
モラル・マシンの実験は、専用のウェブサイトを通じて実際に体験できます。ランダムに選ばれた13のシナリオで構成されており、例えば以下の画像に示されたシナリオでは、自動運転車のブレーキが故障し、直進かカーブのいずれかしか選べない状況が想定されています。
直進すればホームレスが死亡し、カーブすれば自動運転車に乗っている女性が死亡する──。こうした状況で、どちらを助けるべきかが問われるのです。
画像出典:モラル・マシン公式サイト
設計したマサチューセッツ工科大学をはじめとする研究チームは、2018年に論文を発表しました。論文では、日本を含む233の国と地域および属領から集めた3,961万件の実験結果がまとめられています。
以下の画像は、その実験結果を示したものです。表の各行は比較する属性を表し、表内の左右の絵は比較対象を示しています。また、棒グラフで示された数値は、右側の比較対象がより助けられる確率を表しています。
例えば「Age(年齢)」という属性を見ると、右側に描かれているベビーカーの乳児や子どもは、左側の老人に比べて、0.49(つまり49%)高い確率で助けられる傾向が示されています。
画像出典:モラル・マシン実験結果の世界的傾向
研究チームは、地域ごとの実験結果も分析しています。結果を類似性で分類したところ、以下のように三つの「クラスター」に分かれました。
- 西部クラスター:北米、北欧、イギリス連邦諸国
- 東部クラスター:日本や中国を含むアジア地域
- 南部クラスター:南米諸国、フランス、旧フランス植民地など
画像出典:モラル・マシン実験結果の地域別傾向
以上の地域別の実験結果を比較すると、各地域の間には顕著な違いが見られました。例えば、南部クラスターでは若い人を優先して助ける傾向や、ペットより人間を助ける傾向が、他の地域より強いことがわかっています。
こうしたモラル・マシンの実験結果は、自動運転車の普及にあたって、地域ごとに異なるAIへの価値観を踏まえた法整備の必要性を示唆していると言えるでしょう。
AIは多数を助けるか、正義を貫くか?モラル・マシン実験が映すAIの倫理観
モラル・マシン実験を引き継ぐ形で、ドイツのマックス・プランク研究所などの研究チームは、2025年5月に新たな論文を発表しました。彼らは、モラル・マシン実験を50種類以上の大規模言語モデル(LLM)に対して実施し、その結果をまとめています。
論文によれば、研究チームは以下の手順で実験を行いました。
- 手順1:モラル・マシン実験の各シナリオを、大規模言語モデルへの入力用プロンプトに変換し、合計640のシナリオで構成される実験用データセットを作成する。
- 手順2:GPT-4o、Gemini 2 Flash、DeepSeek V3など、50種類以上の大規模言語モデルに対して、作成した実験データセットを用いてモラル・マシン実験を行う。
- 手順3:手順2で得られた各モデルの結果を、Gemini 2.5 Flashを用いて解析し、各モデルが「帰結主義」か「義務論」のいずれの倫理的立場により近い傾向を示すかを算出する。
手順3における「帰結主義」とは、行為を倫理的に評価する際、その結果を重視する立場を指します。理解は得られやすいものの、結果のためには手段を選ばない側面があるのが特徴です。
一方、「義務論」とは「嘘をつかない」などの倫理的原則を守ることを重視する立場であり、ときに柔軟性に欠けるという批判もあります。
今回の実験結果は、以下のグラフで示されています。グラフの右側に位置するほど帰結主義的で、左側に行くほど義務論的であることを意味します。
実験した大規模言語モデルの倫理的な傾向にはばらつきがありました。例えば、GPT-4.1 nanoは帰結主義的な傾向が強い一方で、Gemini Pro 1.5はもっとも義務論的であることがわかっています。
また、GPTシリーズのように同系統の大規模言語モデルでも、モデルサイズが小さいほど帰結主義的になる傾向が確認されました。
画像出典:50種類以上の大規模言語モデルにモラル・マシンを実施して算出した倫理的傾向
以上の実験結果から、現在多種多様に存在する大規模言語モデルには、それぞれ異なる倫理的な立場があることがわかります。
人命に関わるような重要な意思決定にこれらのモデルを活用する際には、そのモデルがどのような倫理観を持っているかを理解することが不可欠だと言えるでしょう。
生成AIの答えに公平さと一貫性は両立できるのか?
最近では、生成AIに人生相談をする人が増えています。こうした相談相手には、「公平」であり、かつ「一貫性がある」ことが望まれます。
生成AIの思考スタンスについては、IBM研究所の研究チームが2025年5月に論文を発表しました。この論文では、生成AIの公平性と一貫性を測定するために、次のような実験が行われています。
研究チームは、回答が賛否で分かれやすいテーマ(例:「移民政策の促進に賛成か」)と、そうではないテーマ(例:「好きな有名人は誰か」)を含む20のテーマを設定しました。そして、それぞれのテーマについて、12〜38項目のリッカート尺度(※)による質問を作成しました。
(※)リッカート尺度とは、心理テストなどで用いられる回答方式の一つで、5段階などの選択肢を使って意見の度合いを示す方法です。例えば「アイスクリームは朝食に適している」という質問に対して、以下のように回答を設定します。
- 全く同意できない
- 同意できない
- どちらともいえない
- 同意できる
- 非常に同意できる
作成した質問は、GPT-4oを含む10種類の生成AIに入力され、その回答をもとに生成AIの公平性と一貫性が算出されました。
実験では、生成AIに対して次の3種類の指示が与えられています。
- 直接回答(Direct):入力した質問に対して、生成AIが適切な選択肢を選ぶ。
- 推論回答(Reasoning):生成AIが選択肢を選び、その選択に至るまでの推論も行う。
- 自己反省的回答(Self-reflection):生成AIが自身の推論を見直した後、選択を再考し、最終的な回答を決定する。
このように異なる指示を与えたのは、熟考の有無によって生成AIの思考スタンスに変化が生じるかどうかを調べるためです。
上記の実験結果をまとめたものが、以下の3つのグラフです。左から順に「直接回答」「推論回答」「自己反省的回答」の結果を示しており、それぞれのグラフでは横軸が一貫性の度合い(右側ほど一貫性が高い)、縦軸が公平性の度合い(上側ほど極端な思考を示す)を表しています。
出典画像:10の大規模言語モデルに関する公平性と一貫性の散布図
どのグラフも右肩下がりの分布を示しており、今回の実験の範囲では、公平性と一貫性を両立できる生成AIは存在しないことがわかりました。つまり、公平性を備えた生成AIは一貫性に欠け、反対に一貫性のある生成AIは公平性を欠くという結果です。
また、3つのグラフの分布に大きな差が見られなかったことから、熟考によって生成AIの思考スタンスが変わらないことも判明しました。
生成AIの回答は、一見すると丁寧で思慮深い印象を与えます。そのため、倫理的・道徳的な質問を投げかければ、公平かつ適切に答えてくれるのではないかと期待を抱いてしまいます。
しかし、本稿で紹介した2つの研究が示しているのは、生成AIには特定の倫理的立場があり、時として公平性や一貫性を欠く回答を出力する可能性があるという点です。
今後、生成AIが生活のあらゆる場面に浸透する現代社会において重要なのは、こうした生成AIの倫理的不完全性を理解したうえで、その出力を適切に活用することではないでしょうか。
そして、生成AIをより適切に活用するためには、その回答が持つ倫理的な特徴、言い換えれば「生成AIの倫理的パーソナリティ」を明確にし、社会全体で共有していくことが望まれるでしょう。
執筆:吉本幸記
編集:中田順子