share

公開日 

更新日 

  • 生成AIトレンド

2024年最強オープンソースモデル「Molmo」とは?性能や使い方、活用例を解説

2024年9月26日、GPT-4oを超える性能をもつオープンソースモデル「Molmo(モルモ)」が発表され、世界中で話題になっています。

Molmoは、画像理解と自然言語処理を組み合わせた高度な能力をもち、オープンソースであることによる透明性の高さが特徴のAIモデルです。商品説明文の作成や医療診断支援など、幅広い分野での活用が期待されています。

本記事では、Molmoの特徴や使い方、活用例などについて詳しく解説します。実際に筆者がMolmoを使用している様子も公開しています。

この記事を読むことで、最新のAIモデルを理解し、Molmoの基本的な知識から具体的な使い方まで把握できるでしょう。

監修者

SHIFT AI代表 木内翔大

(株)SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会理事 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ(会員1万人超)を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は10万人超え(2025年1月現在)

弊社SHIFT AIでは、Molmo以外でも無料で使えるAIツールをご紹介するセミナーを無料で開催しています。

興味のある方は、以下のリンクから詳細を確認してみてください。

【無料】30,000人以上が受講!

【無料で使える】Molmoとは?

Molmoは、Allen Institute for AI(Ai2)と ワシントン大学の研究チームによって開発された、最先端のマルチモーダルモデル※です。
※テキストだけでなく画像や音声なども処理できるAIモデル

Molmoの主な特徴として、オープンソースであること、高い性能を有すること、そしてシンプルな設計による開発のしやすさが挙げられます。これらの特徴により、Molmoは研究者や開発者にとって魅力的なツールとして注目されています。

また、開発元のAi2が用意しているブラウザアプリで、Molmoを無料で使用できます。

以降の章では、Molmoの3つの主要な特徴について詳しく解説していきます。これらの特徴を理解することで、Molmoがなぜ注目を集めているのかが明らかになるでしょう。

Molmoの3つの特徴

本章では、Molmoの基本知識について以下の3点を解説します。

  1. オープンソースで透明性が高い
  2. オープンソースでありながらGPT4oに匹敵する性能
  3. 開発や改良が容易

まずはMolmoがどのようなAIモデルなのか確認しましょう。

1. オープンソースで透明性が高い

Molmoの最大の特徴は、オープンソースモデルである点です。モデルの重み、訓練データ、そしてコードのすべてが公開されています。もちろん、研究や商用的な利用は可能です。

OpenAIのGPTやGoogleのGeminiなどのモデルは非公開であり、研究コミュニティが内部構造や動作原理を理解することが困難です。一方、Molmoはオープンソースであるため、誰でもモデルの詳細を調査し、改良を加えられます。

また、Molmoの訓練データも公開されています。これは、モデルの挙動をより深く理解し、データのバイアスを特定するのに役立ちます。透明性の高さは、AIの倫理的な開発と利用を促進する上で重要な要素です。

この透明性により、研究者や開発者はMolmoを基盤として、新たなアイデアを試したり、特定のタスクに適応させたりするできるようになるでしょう。

2. オープンソースでありながらGPT4oに匹敵する性能

Molmoの2つ目の注目すべき特徴は、その高い性能です。とくに、Molmoファミリーの中で最も性能が高いMolmo-72Bモデルは、GPT-4oと呼ばれる最先端の非公開モデルに匹敵する性能を示しています。

具体的には、11の学術ベンチマークの平均スコアにおいて、Molmo-72Bは81.2点を獲得し、GPT-4oの78.5点を上回っています。また、人間による評価では、Molmo-72BはGPT-4oに次ぐ2位にランクされています。

また、一般的にGPT-4oやGemini 1.5 Proなどクローズドモデルの方が性能が高くなる傾向ですが、Molmoはオープンでありながらも他のモデルよりも高性能です。

このような高い性能は、Molmoが単にオープンソースであるだけでなく、実用的な場面でも十分に活用できることを示しています。特に、画像認識や自然言語処理を組み合わせたタスクにおいて、Molmoは優れた能力を発揮します。

さらに、より小規模なMolmoモデルにも注目です。たとえば、MolmoE-1Bは、GPT-4Vとほぼ同等の性能を示しながら、モデルサイズは10分の1以下です。これは、Molmoの効率的な設計と訓練方法の成果といえるでしょう。

3. 開発や改良が容易

Molmoのはシンプルなプロセスでトレーニングされているため、モデルの開発や改良が比較的容易です。

Molmoの訓練は、2つの主要な段階で行われます。

  1. 基本訓練: Molmoに画像と言葉を同時に理解する基本的な能力を身につけさせます。
  2. 応用訓練: さまざまな具体的なタスクに対応できるよう、Molmoの能力を調整します。この段階で、画像に関する質問への回答や詳細な説明生成などの能力を身につけます。

この2段階の訓練により、Molmoは画像と言葉を深く理解し、多様な課題に対応できる能力を獲得します。この訓練プロセスの特徴は、他のモデルで見られるような複雑な訓練プロセスや、大規模なデータの使用を避けていることです。

シンプルな訓練プロセスによって、利用者はモデルの挙動をより理解しやすくなります。また、このシンプルさは、他の研究者や開発者がMolmoをもとにして新しいモデルを作成したり、既存のモデルを改良したりすることを容易にします。

【3ステップ】Molmoの始め方

Molmoを始める際は、本章を参考にしてアカウントを登録しましょう。なお、Molmoはアカウントがなくても使用できますが、その場合はチャット履歴が残りません。そのため、快適に使用するためにアカウント登録が推奨されます。

くても使用できますが、その場合はチャット履歴が残りません。そのため、快適に使用するためにアカウント登録が推奨されます。

STEP1:公式サイトにアクセス

Molmoの公式サイトのスクリーンショット
出典:Molmo公式サイト

まずは、公式サイトにアクセスします。

公式サイトにアクセスしたら、「Try Molmo now」をクリックして、次に進みましょう。

STEP2:アカウントを作成

Molmoの使用画面

次にアカウントの作成です。画面右側の「Login to save chat history」をクリックしましょう。

そうすると、Googleアカウントでのアカウント登録を求められます。アカウント登録が完了したら次に進みましょう。

STEP3:利用規約を確認

利用規約確認画面
Molmoの利用に関する注意喚起
プライバシーポリシー確認画面
プライバシーやデータ取得の規約

それぞれをチェックして、「Let’s go」をクリックすることMolmoを使用できる画面に移動できます。

Molmoの使い方

まずは以下の画像で、Molmoの使用画面の説明を確認してみてください。

Molmoの使用画面の説明
Molmoの使用画面の説明

Molmoと会話をする際には、まず画像の提供から始めましょう。Molmoで会話を開始する際には、必ず画像を提供する必要があります。

画像を提供したら、テキストもしくは音声でプロンプトを入力します。たとえば、以下のように提供した画像を説明できます。

提供した画像と出力された説明
提供した画像と出力された説明

また、Molmoは他の画像認識AIと異なり、提供した画像にポイントを設置できます。今回は、機械のつまみの部分にポイントを設置してもらいます。

機械のつまみの部分にポイントを設置
機械のつまみの部分にポイントを設置

このように、特定の部分を指定してポイントを設置できます。直接画像に編集を加えられるAIモデルは珍しいため、この特徴を画像編集の効率化に活かしてみるとよいでしょう。プロンプトは以下を参考にしてください。

[任意の箇所]をポイントしてください。

なお、筆者が実際に何度か試したところ、現時点ではポイントを設置する以外はできませんでした。今後は、特定の範囲に色を塗ったり、色を変更できたりするようになることが期待されます。

Molmoを使う際の注意点

Molmoは高性能で画像認識に優れたAIモデルですが、いくつか注意点があります。

  • ローカルで動かす場合は計算資源が必要
  • 日本語の認識が苦手
  • チャットサービスのMolmoではデータが学習される

Molmoを使いたい方は、本章を確認しておきましょう。

ローカルで動かす場合は計算資源が必要

Molmoをローカル環境で運用する場合、相当な計算資源が必要になります。これは、とくに個人開発者や小規模なチームにとって重要な考慮事項となります。

Molmoの中でも最も大きなモデルであるMolmo-72Bは、72億個のパラメータを持つ巨大なモデルです。このサイズのモデルを効率的に動作させるには、高性能なGPUや大容量のRAMが必要です。

また、小規模なモデルであっても、リアルタイムで画像と言語を処理するには、一定以上の計算能力が求められます。たとえば、MolmoE-1Bは比較的小さなモデルですが、その動作には少なくとも中程度のGPUが必要です。

さらに、モデルの訓練や微調整を行う場合は、より多くの計算資源が必要になります。大規模なデータセットを用いた訓練には、複数のGPUや長時間の計算が必要になる場合があります。

日本語の認識が苦手

Molmoは多言語対応のモデルですが、日本語テキストの認識精度が英語に比べて低くなります。

Molmoの訓練データには日本語のコンテンツも含まれていますが、その量は英語に比べて限定的です。そのため、画像中の日本語テキストの認識も課題となる可能性があります。

一方で、数字や英語の読み取りは高精度に行えます。日本語以外の文字認識はMolmoを使用し、日本語の文字認識を行う場合は、ChatGPTやGeminiなど、他の生成AIがおすすめです。

チャットサービスのMolmoではデータが学習される

Molmoを利用したチャットサービスでは、ユーザーが入力したデータが学習される可能性があります。これは、AIモデルの性能向上や新しい知識の獲得のために行われる一般的な手法です。

たとえば、ユーザーが画像について質問をした場合、その質問内容や画像、さらにはAIの回答が学習データとして使用される可能性があります。これにより、Molmoは時間とともにより精確な回答ができるようになりますが、同時にプライバシーの観点から注意が必要です。

ただし、Molmoのソースコードを利用して独自に開発されたプロダクトの場合、データが学習されない可能性が高いでしょう。これは、データの取り扱いがそれぞれのプロダクトの方針に依存するためです。

ユーザーは、Molmoベースのサービスを利用する際、個人情報や機密情報の入力には注意を払う必要があります。サービス提供者のプライバシーポリシーを確認し、データの取り扱いについて理解することが重要です。

Molmoの活用例

Molmoを実際にどのような場面で活用できるのか確認してみましょう。

  • 画像キャプションの自動生成
  • 視覚障がい者支援
  • 医療画像診断支援

高精度の画像認識ができることを活かして、さまざまなケースでMolmoを使用してみましょう。

画像キャプションの自動生成

Molmoの強みを活かせる分野の一つが、画像キャプションの自動生成です。Molmoは画像の内容を詳細に理解し、それを自然な言語で表現できます。

たとえば、eコマースサイトでは、以下のように商品画像に対して詳細な説明文を自動生成できます。

筆者が実際にMolmoで商品説明文を生成している画像

高精度な画像認識をフルに活かして、業務を効率化してみてください。

視覚障がい者支援

Molmoの画像認識と自然に言語を操れる能力を組み合わせることで、視覚情報を音声に変換するシステムを構築できるため、

たとえば、スマートフォンのカメラを通じて周囲の環境を説明するアプリケーションが考えられます。「あなたの前方3メートルに赤信号があります。左側には歩道があり、右側には自転車が止まっています」といった詳細な状況説明を音声で提供できます。

ただし、Molmoのブラウザ上ではこの機能を使えないため、現状ではソースコードを使用してプロダクトを開発するか、機能が実装されるまで待つ必要があります。

このような支援ツールは、視覚障がい者の自立と社会参加を促進し、より多様性に富んだ社会の実現に寄与する可能性があります。

医療画像診断支援

Molmoの高い画像認識能力は、医師の診断を補助する役割を果たす可能性があります。

たとえば、X線画像やMRI画像の分析に活用できます。Molmoは画像内の異常や特徴的な部分を検出し、「右肺下葉に約2cm大の結節状陰影が認められます。周囲との境界は比較的明瞭で、形状は不整形です」といった詳細な所見を生成できる可能性があります。

さらに、時系列での画像比較も可能です。過去の画像と現在の画像を比較し、「前回の検査時と比較して、腫瘍サイズが約15%縮小しています。周囲の浸潤影も減少傾向にあります」といった変化の要約を生成できる可能性があります。

Molmoは医師の判断を補助し、効率的な診断を支援する役割を果たすことが期待されます。
※ただし、Molmoはあくまで診断支援ツールであり、最終的な診断や治療方針の決定は医師が行う必要があります。

Molmoの今後の展望

Molmoの開発チームは、近い将来にさまざまなリソースを公開する計画を立てています。

項目内容
詳細な技術報告書の公開Molmoの技術的側面を深く理解するための詳細な報告書が近日中に公開予定。
研究者や開発者向けの貴重な資料。
PixMoデータセットの公開Molmoの訓練に使用された高品質な「PixMo」データセットが公開予定。
画像キャプション生成や教師あり学習データを含む。
追加のモデル重みとチェックポイントの公開さまざまなサイズや特性を持つモデルの重みが公開予定。
異なる用途や計算環境に適したモデル選択が可能に。
訓練コードと評価コードの公開Molmoの訓練プロセスと性能評価に使用されたコードが公開予定。
訓練プロセスの再現や独自モデル開発の参考になる。
※2024年9月26日時点

これらのリソースの公開は、AIの研究開発における透明性と再現性を高めることに貢献します。また、Molmoを基盤とした新たな研究や応用開発を促進し、マルチモーダルAIの分野全体の発展につながることが期待されます。

Molmoの開発チームは、これらのリソースを2024年9月末から2か月以内に順次公開していく予定です。

また、パソコン画面内でMolmoが自動で商品を注文するデモ動画も公開されています。将来的には、パソコン内での横断的なタスクもMolmoが行えるようになる可能性があります。

Molmoで広がるAIの可能性

Molmoは、オープンソースのマルチモーダルAIモデルとして、画像理解と自然言語処理の分野に新たな道を開いています。

GPT-4oやGeminiなどに匹敵する高い性能と、オープンソースによる透明性を兼ね備え、自動キャプション生成や視覚障がい者支援、医療画像診断支援など、幅広い分野での活用が期待されます。

また、今後は開発チームによる継続的な改良と、データセットやコードの公開により、AIの研究開発がさらに加速すると考えられます。Molmoは、AIの可能性を広げ、社会課題の解決に貢献する重要な存在となるでしょう。

弊社SHIFT AIでは、Molmoをはじめ、その他の生成AIを効果的に活用したい方々を対象に、実践的なセミナーを開催しております。

興味のある方は、以下のリンクから詳細を確認してみてください。

【無料】30,000人以上が受講!

記事を書いた人

SHIFT AI TIMES編集長

大城一輝

フリーランスとしてライター、ディレクター、生成AIコンサルタントとして活動している。AI活用の講師も多数経験。
SHIFT AIではオウンドメディア(SHIFT AI TIMES)の編集長を担当。
また、SHIFT AIのモデレーターとしてコミュニティ運営や講師にも携わっている。
G検定・生成AIパスポート・Generative AI Test合格
Google AI Essentials修了
ノーコード生成AIツール「Create.xyz」公式アンバサダー
Xはこちら
Linkedinはこちら