OpenAI o1を超える!?アリババ「Marco-o1」とは？

2024年11月27日、中国企業アリババの研究部門「アリババ研究院」から新しいモデル「Marco-o1」が発表されました。

OpenAIが発表した大規模推論モデル「OpenAI o1」を超える性能を目指して開発され、深く細かい推論能力が備わっています。

本記事では、「Marco-o1」の概要や能力、活用シーンについて解説します。

「研究でより深く推論していきたい」「ニュアンスも汲んだ翻訳をしたい」という方はぜひ最後までご覧ください。

（株）SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会（GUGA）協議員 / Microsoft Copilot+ PCのCMに出演 / AI活用コミュニティ SHIFT AI（会員20,000人超）を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は13万人超え（2025年8月現在）

AIに興味はあるけれど、「難しそう」「時間がない」と感じている方にSHIFT AIの無料メール講座がおすすめです。

この無料講座なら、1日数分メールを読むことをたった5日間続けるだけでAI時代を生き抜くノウハウを習得できます。

また、数百〜数千種類あるAIツールから、本当に使えるAIのみを厳選して紹介している「AIツール図鑑」も、講座内で配布しています。

AI時代に乗り遅れないためにも、このチャンスを逃さず登録してみてください。

5日間限定の無料メール講座

アリババの新モデル「Marco-o1」とは？

人工知能の進化は、私たちの想像をはるかに超える速さで進んでいます。

その最先端を走るのが、アリババが開発した「Marco-o1」という革新的なAIモデルです。

「Marco-o1」は中国企業アリババが開発した最新のAIシステムで、OpenAIのモデル「OpenAI o1」の影響を受け、アリババ社Qwenグループの大規模言語モデル「Qwen2-7B」をベースとして作られました。

人工知能の世界に新しい風を吹き込む画期的なツールで、以下4つの活用により、複雑なタスク処理に長けています。

思考連鎖（CoT）：1つずつ順を追う人間のような思考をAIに再現する
自己批判的推論アプローチ：AIが自分の答えを自分で点検・評価する
モンテカルロ木探索（MCTS）：枝分かれした木のように思考する
リフレクションメカニズム：経験から学び改善点を見つける人間の内省プロセスをAIに再現する

「Marco-o1」はオープンソースモデルとしてHugging Faceで公開されています。

推論能力の向上

「Marco-o1」は従来のAIとは一味違い、複雑なタスク処理ができ、推論能力が向上しています。以下図のように、3種類のデータセットを組み合わせた学習・調整が行われました。

Marco-o1を構築したファインチューニング
参照：arXiv, Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

AIの行動選択の粒度に注目し、より細かく推論を進められるよう、「ミニステップ」と呼ばれる64または32トークの小単位に分割して実験されました。

また、「Marco-o1」は思考の最後に自己反省を行います（振り返りメカニズム）。以下引用のように、思考するだけでなく、最後に考え直すプロセスがあるのです。

Wait! Maybe I made some mistakes! I need to rethink from scratch.

【日本語訳】
待った！私は間違いを犯したかもしれない！最初から考え直す必要がある。
引用：arXiv, Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

これらの結果、「Marco-o1」より複雑で細かい推論が可能になり、最適解を導き出すのに効果的な能力を発揮します。

「Marco-o1」はMGSMベンチマークにおいて、ベースである「Qwen2-7B」を大きく上回る結果となりました。
※Multilingual Grade School Mathベンチマーク：多言語環境における推論能力を評価するためのベンチマーク

「Marco-o1-MCTS」では、英語のデータセットでは最大+6.4%※、中国語のデータセットで最大+5.60%の精度向上を達成しています。

「Marco-o1-MCTS」は、作成済みの「Marco-o1-CoT（思考連鎖を組み込んだモデル）」を採用したうえで、モンテカルロ木探索（MCTS）も採用したモデルです。

※論文内『1. Introduction』には「英語のデータセットでは+6.17%」と記載がありますが、資料データを参照すると「+6.4%」となります。