精密医療電脳書

分子標的薬 コンパニオン診断 コンパクトパネル 人工知能

医学文献検索・分析用ローカルLLM:MedGemmaとGemma 4のどちらを選択する?

はじめに

PubMedのアブストラクトおよび医学論文を検索・分析するローカルLLMアプリを開発している。現在のバックエンドではGoogleが公開した医療特化モデル「MedGemma 27B」を使っているが、2025年4月にGemma 4がリリースされた。Gemma4は、コンシューマ向けPCで動かせるフロンティアモデルに匹敵するオープンウェイトLLMだ。性能評価テストでパラメータ数が10倍〜数十倍の最新オープンウェイトモデルと同等のスコアを叩き出している。「乗り換えるべきかどうか」という選択についてAI(GPT-5.4, Claude Sonnet 4.6)との議論にもとづいて整理した。


1. MedGemmaとは何か

MedGemmaはGoogle DeepMindが公開した医療特化のオープンウェイトモデルである。ベースはGemma 3であり、以下の3バリアントが存在する。

バリアント 特徴
4B multimodal 画像・テキスト対応、軽量
27B text-only 医療テキストに特化、推論最適化
27B multimodal テキスト+医療画像(X線・病理・眼底など)対応

医療テキストの学習データには、医学論文・医療QAペア・FHIR形式の電子カルテデータが含まれる。画像エンコーダにはMedSigLIPを採用しており、胸部X線・皮膚科・眼科・病理スライドで事前学習済みである。

ライセンスはHealth AI Developer Foundations利用規約に準拠しており、Apache 2.0ではない点に注意が必要だ。基本Apache 2.0だが、医療用途での法的社会的制限に厳しいライセンスになっている。

私の用途である「PubMedアブストラクトの読解・比較・構造化抽出」においては、27B text-onlyが現時点での最適解である。医療語彙・臨床文脈への適合が高く、コンシューマGPU(RTX 5090 / 32GB VRAM)での単機運用が可能だ。


2. Gemma 4とは何か

Gemma 4はGoogleが2025年4月にリリースした汎用オープンウェイトモデルである。ライセンスはApache 2.0であり、商用利用を含む自由度が高い。

モデル構成

モデル 総パラメータ アーキテクチャ コンテキスト長
E2B 5.1B(実効2.3B) Dense 128K
E4B 8B(実効4.5B) Dense 128K
26B A4B 25.2B(実効3.8B) MoE 256K
31B 30.7B Dense 256K

MoEモデル(26B A4B)は総パラメータ25.2Bながら推論時の実効パラメータは3.8Bであり、速度面で31B Denseを大きく上回る。

主な改善点は以下の通りである。

  • 推論能力の強化:全モデルに思考モード(configurable thinking modes)を搭載
  • マルチモーダル拡張:E2B・E4BはText/Image/Audio対応、31BはText/Image対応
  • コンテキスト長の拡大:最大256Kトークン
  • ネイティブシステムプロンプト対応systemロールを正式サポート
  • 140以上の言語対応:多言語性能の向上

3. 「変更を検討すべきか」――議論の整理

問いの立て方が重要である

「Gemma 4のほうが新しいから良い」という発想は誤りだ。正しい問いは、

「自分の用途・環境・制約において、どちらが現時点の最適か」

である。

MedGemmaが現時点で優位な理由

医療テキスト読解においてMedGemmaが強い理由は、単純なモデルサイズや汎用ベンチマーク性能ではない。医療ドメインへの特化学習、すなわち医学論文・臨床記録・医療QAで追加学習されていることが本質的な差である。

Gemma 4の31Bが汎用性能で優れていても、PubMedアブストラクトの構造的読解・PICO抽出・症例叙述の時系列整合性といった医療特有のタスクでは、MedGemma 27Bが現時点で上回る可能性が高い。

また、コンシューマGPU(32GB VRAM)での運用という制約下では、Gemma 4の31B Denseは重く、MoEの26B A4Bは医療特化学習を持たない。現実的な選択肢として、MedGemma 27Bはバランスが良い。

Gemma 4が優位になりうる条件

一方、以下の条件が揃えばGemma 4への移行を検討する価値がある。

  • 256Kコンテキストが必要な長文処理(複数論文の横断分析など)
  • 推論能力が要求される複雑な多段階タスク
  • Apache 2.0ライセンスが必要な商用展開
  • MedGemmaベースの次世代モデル(Gemma 4ベースのMedGemma)がリリースされた場合

特に最後の点は重要である。MedGemmaはGemma 3ベースであり、Gemma 4ベースの医療特化モデルが今後登場する可能性がある。その際は評価セットを用いた比較が有効だ。


4. 設計方針:「更新前提の構造」を作る

今後1〜2年でコンシューマGPUの実効性能は向上し、より優れた医療特化モデルが登場する可能性は高い。したがって、現時点の最適解を固定資産化せず、モデルを差し替えやすい設計にしておくことが重要である。

推奨する設計原則は以下の通りだ。

  1. モデルアダプタ層を分離する:アプリのロジックとモデル呼び出しを切り離す
  2. 固定評価セットを資産として持つ:新モデルが出た際に即座に比較できる
  3. 段階処理パイプラインに寄せる:抽出→正規化→比較→要約の多段階構造
  4. 長文をそのまま投入しない:256Kコンテキストが使えても、安定性は別問題

まとめ

現時点での結論は明快である。

PubMedアブストラクト・医学論文の読解・分析を目的とし、コンシューマGPU(32GB VRAM)でローカル運用するなら、MedGemma 27Bを維持するのが合理的である。

Gemma 4は優れたモデルだが、医療ドメイン特化学習を持たない汎用モデルである。乗り換えの判断基準は「新しさ」ではなく、「自分の評価セットで明確に上回ったとき」に限定すべきだ。

一方、モデルの選択よりもアプリケーション設計の質が最終的な差を生む。評価セットの整備、モデル非依存のパイプライン設計、そして「何をしないか」の境界設定が、重要だ。

AIとの議論では、MedGemmaの優越性が予想されたが、これから実地でGemma 4を使って様子を見よう、と思う。