はじめに
PubMedのアブストラクトおよび医学論文を検索・分析するローカルLLMアプリを開発している。現在のバックエンドではGoogleが公開した医療特化モデル「MedGemma 27B」を使っているが、2025年4月にGemma 4がリリースされた。Gemma4は、コンシューマ向けPCで動かせるフロンティアモデルに匹敵するオープンウェイトLLMだ。性能評価テストでパラメータ数が10倍〜数十倍の最新オープンウェイトモデルと同等のスコアを叩き出している。「乗り換えるべきかどうか」という選択についてAI(GPT-5.4, Claude Sonnet 4.6)との議論にもとづいて整理した。
1. MedGemmaとは何か
MedGemmaはGoogle DeepMindが公開した医療特化のオープンウェイトモデルである。ベースはGemma 3であり、以下の3バリアントが存在する。
| バリアント |
特徴 |
| 4B multimodal |
画像・テキスト対応、軽量 |
| 27B text-only |
医療テキストに特化、推論最適化 |
| 27B multimodal |
テキスト+医療画像(X線・病理・眼底など)対応 |
医療テキストの学習データには、医学論文・医療QAペア・FHIR形式の電子カルテデータが含まれる。画像エンコーダにはMedSigLIPを採用しており、胸部X線・皮膚科・眼科・病理スライドで事前学習済みである。
ライセンスはHealth AI Developer Foundations利用規約に準拠しており、Apache 2.0ではない点に注意が必要だ。基本Apache 2.0だが、医療用途での法的社会的制限に厳しいライセンスになっている。
私の用途である「PubMedアブストラクトの読解・比較・構造化抽出」においては、27B text-onlyが現時点での最適解である。医療語彙・臨床文脈への適合が高く、コンシューマGPU(RTX 5090 / 32GB VRAM)での単機運用が可能だ。
2. Gemma 4とは何か
Gemma 4はGoogleが2025年4月にリリースした汎用オープンウェイトモデルである。ライセンスはApache 2.0であり、商用利用を含む自由度が高い。
モデル構成
| モデル |
総パラメータ |
アーキテクチャ |
コンテキスト長 |
| E2B |
5.1B(実効2.3B) |
Dense |
128K |
| E4B |
8B(実効4.5B) |
Dense |
128K |
| 26B A4B |
25.2B(実効3.8B) |
MoE |
256K |
| 31B |
30.7B |
Dense |
256K |
MoEモデル(26B A4B)は総パラメータ25.2Bながら推論時の実効パラメータは3.8Bであり、速度面で31B Denseを大きく上回る。
主な改善点は以下の通りである。
- 推論能力の強化:全モデルに思考モード(configurable thinking modes)を搭載
- マルチモーダル拡張:E2B・E4BはText/Image/Audio対応、31BはText/Image対応
- コンテキスト長の拡大:最大256Kトークン
- ネイティブシステムプロンプト対応:
systemロールを正式サポート
- 140以上の言語対応:多言語性能の向上
3. 「変更を検討すべきか」――議論の整理
問いの立て方が重要である
「Gemma 4のほうが新しいから良い」という発想は誤りだ。正しい問いは、
「自分の用途・環境・制約において、どちらが現時点の最適か」
である。
MedGemmaが現時点で優位な理由
医療テキスト読解においてMedGemmaが強い理由は、単純なモデルサイズや汎用ベンチマーク性能ではない。医療ドメインへの特化学習、すなわち医学論文・臨床記録・医療QAで追加学習されていることが本質的な差である。
Gemma 4の31Bが汎用性能で優れていても、PubMedアブストラクトの構造的読解・PICO抽出・症例叙述の時系列整合性といった医療特有のタスクでは、MedGemma 27Bが現時点で上回る可能性が高い。
また、コンシューマGPU(32GB VRAM)での運用という制約下では、Gemma 4の31B Denseは重く、MoEの26B A4Bは医療特化学習を持たない。現実的な選択肢として、MedGemma 27Bはバランスが良い。
Gemma 4が優位になりうる条件
一方、以下の条件が揃えばGemma 4への移行を検討する価値がある。
- 256Kコンテキストが必要な長文処理(複数論文の横断分析など)
- 推論能力が要求される複雑な多段階タスク
- Apache 2.0ライセンスが必要な商用展開
- MedGemmaベースの次世代モデル(Gemma 4ベースのMedGemma)がリリースされた場合
特に最後の点は重要である。MedGemmaはGemma 3ベースであり、Gemma 4ベースの医療特化モデルが今後登場する可能性がある。その際は評価セットを用いた比較が有効だ。
4. 設計方針:「更新前提の構造」を作る
今後1〜2年でコンシューマGPUの実効性能は向上し、より優れた医療特化モデルが登場する可能性は高い。したがって、現時点の最適解を固定資産化せず、モデルを差し替えやすい設計にしておくことが重要である。
推奨する設計原則は以下の通りだ。
- モデルアダプタ層を分離する:アプリのロジックとモデル呼び出しを切り離す
- 固定評価セットを資産として持つ:新モデルが出た際に即座に比較できる
- 段階処理パイプラインに寄せる:抽出→正規化→比較→要約の多段階構造
- 長文をそのまま投入しない:256Kコンテキストが使えても、安定性は別問題
まとめ
現時点での結論は明快である。
PubMedアブストラクト・医学論文の読解・分析を目的とし、コンシューマGPU(32GB VRAM)でローカル運用するなら、MedGemma 27Bを維持するのが合理的である。
Gemma 4は優れたモデルだが、医療ドメイン特化学習を持たない汎用モデルである。乗り換えの判断基準は「新しさ」ではなく、「自分の評価セットで明確に上回ったとき」に限定すべきだ。
一方、モデルの選択よりもアプリケーション設計の質が最終的な差を生む。評価セットの整備、モデル非依存のパイプライン設計、そして「何をしないか」の境界設定が、重要だ。
AIとの議論では、MedGemmaの優越性が予想されたが、これから実地でGemma 4を使って様子を見よう、と思う。