バカと生成AIは使いよう!?最新の研究結果から見えてきたAI活用の落とし穴

執筆者
AIメディアライター
吉本幸記
2010年代後半よりAI関連の記事を精力的に執筆。
記事投稿したメディア
・AINOW(2024年まで):海外AIトレンド記事の翻訳、海外AI事情に関するコラム記事、世界のAI政策まとめ記事など
・モリカトロンAIラボ(2020年~):ゲームAI、クリエイティブAI、人工知能学会レポート記事など
・CGWorld(2020年~):SIGGRAPHおよびSIGGRAPH Asiaにおける最新AI技術論文の紹介記事など
・Generative AI Media(生成AI活用普及協会(GUGA)運営メディア,2024~2025年):海外生成AI法人活用事例記事や生成AI活用失敗事例集など
・SHIFT AI TIMES(2025年):AI研究者へのインタビュー記事
執筆協力した書籍
・『AI白書2022』(海外事例執筆)『AI白書2023』(世界のAI政策執筆協力)
・『CGWORLD vol.293』(「アーティストのためのAI活用」特集の執筆・監修)
・『WIRED vol.46』(「INVISIBLE/SEAMLESS ゲームAIが都市(≒環境)に溶け出すとき」制作協力」)
保有AI資格
・G検定、生成AIパスポート、Generative AI Test
Xアカウントはこちら。
生成AIは、業務効率化の手段や良き相談相手として、ポジティブに語られるようになりました。
一方で、生成AIの使い方次第では、ユーザーにネガティブな影響を与える可能性も、最新研究により明らかになってきました。
そこで本記事では、”生成AIでユーザーがバカになるか”を研究した4つの論文や研究レポートをもとに、”生成AIの得手不得手”を明らかにします。
そして、”バカにならないための賢い生成AIの使い方”を提案します。
この記事の要点
- 生成AIを活用して文章を作成すると、その内容を理解できなくなったり、浅い内容になりやすい。
- 生成AIによるアイデア出しは、個人のアイデアを増やす一方で、生成AIを使う組織全体のアイデアを減らす可能性がある。
- 専門家やハイスキルユーザーが使う場合も、生成AI活用による効果が薄い。
- 一方で、業務効率化については生成AIは絶大な効果を発揮する。
- 生成AIには得手不得手があるので、そうした特徴をふまえた”賢い使い方”が求められる。
なお、”バカにならないための賢い生成AIの使い方”を早く知りたい読者は、最後の見出しから読んでください。
SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、AIを使った副業の始め方や、収入を得るまでのロードマップを解説するセミナーを開催しています。
また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。
「AIを使って最速で副業収入を得る方法を知りたい」という方は、ぜひセミナーに参加してみてください。
目次
実験①書いた内容をきちんと理解できるか?
まず初めに、生成AIが小論文の執筆者に与える影響を調べた実験に関する論文から紹介します。
アメリカ・MITメディアラボらの研究チームは2025年6月10日に発表しました。
以下では、実験の方法と結果をまとめます。
3つのグループに分けて小論文を執筆

実験では、MITがあるボストン近郊から実験参加者を募集し、54名の被験者が集まりました。
被験者の年齢や属性は、下記のとおりです。
- 18~39歳
- 全員が大学に所属
- 大学生
- 博士課程大学院生
- 研究者
実験は、以下のような手順で行いました。
- 54人の参加者を「ツールなし」「Google検索のみ使用可」「ChatGPT(GPT-4oベース)のみ使用可」の3グループに分ける。
- 各グループにそれぞれ重複しない3つのテーマを与え、小論文を執筆する。全体では合計9つのテーマが出題された。
- 使用するツールを変えて、すでに執筆したテーマからひとつ選んで、再度小論文を1本執筆する。
- 小論文執筆後、テストについて面談を受ける。
出題されたテーマは「自分と他者を助けることが、真の幸福ではないか」など、専門知識を必要としない内容でした。
引用ができなくなり”書き手”の意識が薄れる結果に
実験後の面談では、「小論文から文章を引用できますか」という質問に対して、明らかな差が生まれました。
生成AIを使用した参加者は16.7%しか正しく引用できず、ツールなしとGoogle検索使用の参加者では88.9%が正しく引用できたのです。

また「小論文のオーサーシップ(Authorship:著者責任権)を感じていますか」と尋ねたところ、以下のような結果となりました。
| 生成AI使用の参加者 | Google検索使用の参加者 | ツールなしの参加者 | |
|---|---|---|---|
| 完全にオーサーシップを感じる | 50% | 33.3% | 88.9% |
| 部分的に感じる | 33.3% | 66.7% | 11.1% |
| 全く感じない | 16.7% | 0% | 0% |

MITメディアラボ実施実験から、以下のようなことがわかりました。
- LLMを使用して文章を執筆した場合、執筆した内容の理解が著しく劣化する
- 執筆内容の理解が伴わないことにより、文章の”書き手”である意識も減ってしまう
たとえば就職活動にて、「志望動機を生成AIにお任せしてしまうと、面接でうまく話せない」というようなことにつながるということです。

実験②学びが浅くなるか?
実験①の類似例として、「他人にアドバイスする文章をChatGPTを用いて執筆させた場合における、執筆者の意識に関する実験」があります。
アメリカ・ペンシルバニア大学の研究者シリ・メルマド(Shiri Melumad)氏らが2025年10月28日に発表した実験です。
本来、他人にアドバイスするためには、前提知識の理解が不可欠です。
ところが、生成AIを活用することで、前提知識を知らないユーザでも、他人にアドバイスする文章を作ることができるようになりました。
メルマド氏らの実験は、「生成AIを活用した他人へのアドバイスは、どのような影響を与えるのか」という論点にフォーカスしています。
以下では、メルマド氏ら実施実験の方法と結果をまとめます。
Google検索と生成AIを使ってアドバイスを作成し、それぞれ比較した

メルマド氏らの実験では、AIの学習データを収集する際の人員募集をサポートするサービスProlificを活用して、実験参加者1,104名を集めました。
平均年齢は42.4歳、男性47%、女性53%でした。
参加者には、以下のような手順の実験を実施しました。
- 参加者1,104名をランダムに「ChatGPT使用組」と「Google検索使用組」に分ける。
- 参加者に「友人に対して、野菜畑の植え方についてアドバイスする」をテーマとして、それぞれの方法で情報検索してもらう。
- 情報検索した情報にもとづいて、実際にアドバイスを作成してもらう。
- アドバイス作成後、アンケートに回答する。
手順4のアンケートでは以下の5項目について、1~5の選択肢(1が「まったく同意できない」、5が「完全に同意する」)で回答してもらいました。
- 調査結果からそのトピックについて新たなことを学んだ
- 調査結果はその主題について包括的な情報を提供した
- 学んだ内容に対して個人的な所有感を抱いている
- 助言作成に多くの思考と努力を注いだ
- 提供した助言に対して個人的な所有感を抱いている
生成AIを活用すると簡単に書けるが、学びが浅くなる結果に
以上のアンケートの回答を集計した結果が、以下のグラフです。

まとめると、ChatGPTを活用すると、助言執筆による学習がGoogle検索より浅くなることがわかったのです。
また、ChatGPTを活用すると労力はGoogle検索より少なく感じるが、自分の知識にもとづいて助言した実感が薄くなることもわかりました。
さらにメルマド氏らは、ChatGPT活用とGoogle検索を活用した場合の言語的特徴も分析しました。
| ChatGPT活用 | Google検索活用 | |
|---|---|---|
| 平均単語数 | 84.58語 | 94.64語 |
| 事実に言及した箇所(平均) | 0.464箇所 | 0.718箇所 |
上記の結果は、ChatGPT活用の助言では内容が薄いことを数字で証明しています。
事実への言及の少なさは、実用的な知識やアクションに関する記述が少なく、空虚な一般論が多いことを示唆しています。
前述のMITメディアラボとメルマド氏らの実験は、以下の結果を明らかにしました。
- ChatGPTを活用した助言は、”誰でも言えそうな一般論”の傾向が強い
- 何らかの学習における課題に回答する場合、生成AIを活用して回答すると学習効果が薄まる
宿題に早く回答できるからといって、生成AIを活用すると、宿題から得られる知識が得られなくなるかもしれないのです。
実験③アイデアの多様性は減るか?
次の実験は「生成AIを使ったアイデア出しの効果を測定する」ものです。
生成AIを活用して物語を執筆させ、その内容の多様性を調査した研究です。
イギリス・ロンドン大学のスクール・オブ・マネジメント(経営学などを学ぶ学部)の研究者らが2024年7月12日に発表しました。
以下では、この研究で実施した実験の方法と結果をまとめます。
人間のみの場合と生成AIを活用した場合で物語を書き、内容を評価する

実験の参加者はProlificを介して集め、293名が参加することになりました。
実験は、以下のような手順で実施しました。
- 293名の参加者を「人間のみ」「LLM(GPT-4)から1つのアイデアをもらう」「LLMから5つのアイデアをもらう」の3グループに分ける。
- 参加者に創造性テスト(※1)を受けてもらう。
- 3つのテーマ(「大海原での冒険」「ジャングルでの冒険」「異星での冒険」)からひとつを選び、物語を執筆する。
- 参加者に執筆した物語について、自己評価してもらう。
- 執筆された物語について、Prolificで募集した600人の人間が評価する。
(※1)創造性テスト
手順4の自己評価では、以下の6項目について、1~9の段階(1が「まったくそう思わない」、9が「強くそう思う」)で回答してもらいました。
- この物語は、よく書けている。
- この物語を楽しんで読めた。
- この物語は、私が将来読む物語に期待することを変えてしまった。
- この物語には、驚くべきひねりがある。
- この物語は退屈だ。
- この物語は面白い。
手順5の第三者による物語評価では、物語の創造性と有用性に関して、それぞれ以下のような3つの質問を1~9段階で評価してもらいました。
物語の創造性に関する質問
- この物語は、どのくらい新規的(Novel)があると思いますか。
- この物語は、どのくらいオリジナリティがある(Original)と思いますか。
- この物語は、どのくらい希少(Rare、つまりは”月並みではない”)だと思いますか。
物語の有用性に関する質問
- この物語は、想定読者に対してどのくらい適切(Appropriate)だと思いますか。
- この物語を出版物として完成させるとした場合、どのくらい実現可能(Feasible)だと思いますか。
- 出版社がこの物語を読み、プロの作家を雇ってアイデアを膨らませた場合、それが完全な出版物になる可能性(Publishable)はどのくらいあると思いますか。
個人にはプラス効果、組織にはマイナス効果という結果に

グラフの見方
- 上記のグラフ群の左側「A」は実験手順5における第三者評価の集計結果です。
- 右側「B」は手順4における執筆者による自己評価の集計結果です。
- 横軸の「Effect size」とは統計的差異を意味しており、右側ほどハイスコアとなります。
- 青のプロットは生成AIから1つのアイデアをもらった執筆者たち(以下、「1アイデアグループ」と表記)です。
- 赤は生成AIから5つのアイデアをもらった執筆者たち(以下、「5アイデアグループ」と表記)です。
第三者評価は、全項目において、生成AIから5つアイデアをもらった、5アイデアグループのほうが高評価でした。
自己評価においても、「この物語は面白い」以外の質問項目において、5アイデアグループが高評価でした。
上記の結果から、生成AIのサポートが多いほどよい物語が執筆できる、と言えます。
つまり、生成AIをうまく使えば、“自他ともに認める”物語が書けるようになったのです。
研究チームは、参加者が執筆した293の物語について、活用ツールごとにその類似度も調査しました。
横軸が類似度、縦軸が密度であり、黒線が人間のみ、青線が1アイデアグループ、赤線が5アイデアグループを表しています。

人間のみグループの黒線を見ると、類似度82程度の物語がもっとも多く分布していることを意味しています。
生成AIを活用した、1アイデアグループと5アイデアグループの最高分布点は、人間のみに比べて右に寄っています。
つまり、下記の違いがあるということです。
- 生成AI活用グループは、人間のみのグループに比べて、似たような内容の物語を執筆する傾向にある
- 5アイデアグループの最高分布点が1アイデアグループより右寄りなので、前者がもっとも似たような物語を執筆していた
さらに、手順2で測定した創造性テストとアンケート結果の関係をまとめたのが、以下のグラフです。
横軸が創造性スコア値、縦軸は各アンケート項目回答の平均値を表しています。

以上のグラフから、以下のようなことが読み取れます。
- 創造性スコアが高いグループは、生成AIを活用してもプラス効果は少ない。
- 創造性スコアが低いグループは、生成AI活用によるプラス効果が大きい。
- 創造性スコアが低いグループでは、1アイデアグループより5アイデアグループのほうがプラス効果が大きい。
- 要するに、生成AIは創造性が低いグループを底上げする効果がある。

ロンドン大学スクール・オブ・マネジメント発表の論文から判明したことをまとめると、以下のとおりです。
- 「物語の執筆」のような創作活動において、生成AIは低スキルのユーザを強力にサポートする。
- 生成AIを創作活動のサポートに活用すると、活用ユーザが所属するグループ全体におけるアイデアの多様性は減る。
- ハイスキルなユーザは、生成AIを活用してもプラス効果をあまり得られない。
たとえば、ある企業が全社的に生成AIを導入した場合、各社員のパフォーマンスは向上するものの、企業全体の発想力は低下する可能性があります。
実験④専門家のアイデア出しの邪魔になるか?
ロンドン大学発表論文では、ハイスキルユーザーは、生成AIを活用してもプラス効果をあまり得られないことが示唆されました。
この論点を補強する論文を、ドイツ・ミュンヘン大学の研究チームが2025年5月22日に発表しています。
以下では、ミュンヘン大学発表論文の実験方法とその結果をまとめます。
28の先行研究をメタ分析する実験
ミュンヘン大学研究チームは、生成AIが人間の創造性に及ぼす影響を論じた論文を収集して、それらに対してメタ分析を実施しました。
共通のテーマを論じている個々の論文に記載された数値データを統合するメタ分析するということです。
メタ分析技法のなかでも可視化に優れているのが、フォレストプロットです。
フォレストプロットは、個々の論文がもつ効果量を点と線で表現したうえで、個々の効果量を累計した要約量を表すというものです。
以下のフォレストプロットは、7つの研究にもとづいて、コルチコステロイドが、早産の可能性が高い胎児の肺の発達を早める可能性を示しています。
「Summary」の数値が要約量であり、0より大きい0.53であることからコルチコステロイドが有効であることを表しています。

一般人のアイデアは増したが、専門家は減る結果に
ミュンヘン大学研究チームは、「生成AIを活用すると、アイデア出しの多様性は増すのか」という論文を6本集め、フォレストプロットを実施しました。
その結果が、以下のグラフです。グラフ中の「Hedge’s g」が要約量を表しています。

この値が-0.863であることから、アイデア出しにおいて生成AIを活用すると、その多様性は減ってしまうことが示されます。
研究チームは生成AIを活用したアイデア出しの効果を、以下の2パターンに焦点を合わせて算出しました。
- 専門的・学術的知識のない一般人
- 専門家あるいは学術関係者
効果は一般人が-0.866(信頼区間95%の下限が-1.93、上限が0.197)、専門家が-1.26(信頼区間95%の下限が-2.34、上限が0.187)でした(※2)。
数値が低いほど効果が薄いため、専門家あるいは学術関係者が生成AIを使うと、かえって多くのアイデアを出せないことを示唆しています。
(※2)信頼区間
- 統計学における求めたい真の値がある数値範囲を意味する。
- たとえば「信頼区間95%」とは、求めたい値が95%の確率である数値範囲を意味し、その数値範囲は、下限と上限で指定される。
- 「信頼区間95%の下限が-1.93、上限が0.197」とは、-1.93から0.197の範囲に求めたい数値(-0.866)が95%の確率で存在する、という意味となる。
- フォレストプロットをはじめとする統計学に確率論を統合した推計統計学では、確率表現を多用する。

ただし、以上のメタ分析は少ない分析対象にもとづいているため、今後の研究によって要約量が変わる可能性があります。
業務効率化においては生成AIの効果は絶大
これまで紹介した4本の論文は、異なる角度から生成AI活用の悪影響を実証していましたが、「業務効率化」については論じていません。
OpenAIは、ChatGPTを導入した約100社に所属する従業員9,000人の使用パターンの分析結果をまとめています。
詳しくはブログ記事「エンタープライズ AI の現状」とレポートによって、詳細に確認できます。
以下では、生成AIがもたらす業務効率化の視点をまとめていきます。
“正解がはっきりしているビジネスタスク”を業務効率化

OpenAIの分析結果を業務効率化(タスク遂行の高速化)の効果からまとめると、上記の内容がわかります。
つまり、ChatGPTは”正解がはっきりしているビジネスタスク”の業務効率化に優れている、と言えます。
“多く深く使う”ヘビーユーザほど業務効率化
OpenAIの報告では、業務効率化効果の高い労働者のChatGPT使用パターンもまとめています。
業務効率化とChatGPTのクレジット消費量の関係は、以下のグラフのように表すことができます。
クレジット消費量が多いユーザほど、より多くの時間短縮効果を得る「正の相関関係」が成り立っています。
週10時間以上を節約するユーザは、週ゼロ時間節約(つまり時間短縮できていない)ユーザの8倍クレジットを消費していることもわかりました。

ChatGPTを活用しているタスク数に着目すると、約7種類のタスクを横断的に利用するユーザは、約4種類のみを利用するユーザと比べて、5倍の時間節約効果を得ています。

以上の報告にもとづけば、以下のことがわかります。
- もっとも大きい業務効率化を実現しているビジネスユーザは、ChatGPTのクレジットを大量に消費している
- 多種多様なタスクに利用しており、”多く深く”使っている
ただし、OpenAIの報告は、すでにあるビジネスタスクの業務効率化に焦点を当てています。
調査する焦点を「新規ビジネスタスクの習得」や「新規ソリューションの探索」に変えると、報告内容はまったく異なってくるでしょう。
新規のプロセスやソリューションが関わるシーンでは、これまでの論文が明らかにしているように、生成AIの活用が最適解ではない可能性があります。
バカにならないための賢い生成AIの使い方
数々の論文やレポートから、生成AIは”万能の利器”ではなく、使い方次第でユーザーをバカに変える可能性があることがわかりました。
生成AIの得手不得手を考慮した”バカにならないための生成AIの使い方”を箇条書きでまとめると、以下のようになるでしょう。

ビジネスタスクの業務効率化で大きな成果を出す、“多く深く”使う生成AIの活用ノウハウについては、SHIFT AIが開催する無料セミナーで学習できます。
SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、AIを使った副業の始め方や、収入を得るまでのロードマップを解説するセミナーを開催しています。
また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。
「AIを使って最速で副業収入を得る方法を知りたい」という方は、ぜひセミナーに参加してみてください。
スキルゼロから始められる!
無料AIセミナーに参加する




スキルゼロから始められる!
無料AIセミナーに参加する