精密医療電脳書

分子標的薬 コンパニオン診断 コンパクトパネル 人工知能

LLM連携CEA/CEA-MPXによるCIViC大量エビデンス自動要約とその評価

膨張するCIViCエビデンス(例えばEGFR全変異268件)を臨床活用するには自動要約が必須だ。自作スクリプトとLLMで解析し、現行標準治療との整合性と抽出精度を検証、次段強化ポイントを整理した。

 

 

イントロダクション

 

臨床情報データベースであるCIViC (clinical Information of variants in cancer)では、一つのレコードは臨床エビデンスと分子プロファイル(遺伝子変異などの遺伝子異常)のペアだ。例えば、自作のClinical Evidence Viewerを使ってEGFRをCIViCを検索すると、100個の分子プロファルが登録されていることがわかる。代表的な変異であるEGFR L858Rを選択すると37件の臨床エビデンスが表示される。100個の分子プロファイル全部を選択すると268件になる。臨床エビデンスの件数が少ない場合は表示されたレコードを読めばよいが、件数が多い場合は難しい。LLMで文書化すれば、効率よく情報収集できる。

 

Clinical Information Analyzer (CEA) とCEA-MPX

 

Clinical Evidence Analyzer(CEA)は、Clinical Information of Variants in Cancer (CIViC) のエビデンス(evidence_item)を検索選択し、結果を生成AIで分析するスクリプトだ。Analyzer ver. 1.52では遺伝子変異検索が主機能で、治療薬・疾患のキーワード検索はオプションになっている。CEA-MPXは治療薬・疾患のキーワード検索が主機能だ。スクリプト開発の都合上検索システムは2つのアプリケーションに分かれている。これらのスクリプトは別のサイトPM-Toolbox(Precision Medicine Toolbox)で公開している。

CEA ver. 1.52

CEA-MPX

マニュアル

なお、公開版では無料の大規模言語モデルを指定しているので、機能はかなり制限されている。自分では非公開のスクリプトで最新モデルを使っている。大量のデータベース出力の文書化能力について2つのベンチマークテストを行った。

 

ベンチマークテストA CIViCと診療ガイドラインの整合性

 

CEA ver. 1.52でEGFRの遺伝子変異を全部選択、以下のプロンプトで分析した。CIViCエントリーが268件でPubMedアブストラクトが141件である。

 

<プロンプト>

添付ファイルの中でエキソン20挿入変異を肺癌診療ガイドライン(https://www.haigan.gr.jp/publication/guideline/examination/2024/)を参考に選択してください。エビデンスレベルA,BのPubMedアブストラクトの内容と肺癌診療ガイドラインを比較して議論してください。

 

Gemini 2.5 Pro(無料枠), Gemini 2.5 Flash(無料枠), GPT-4.1-miniで出力を得ることができた。Gemini 2.5 Proの出力を別ページで表示する(CIViCと肺癌診療ガイドラインの整合性)。内容は3つのLLMともに大体同一で、現在の肺癌治療の一般常識と合致している。留意点としては、

1)今回のGemini 2.5 Proのテストは8月12日に行ったが、7月中旬とはGemini の仕様が変化している。以前はウェブ検索機能があったが(2024年版を参照した)、今回は2023年版を使っている。LLM単体に制限された模様。また現在のFlashは今回のデータを受け付けなかった。Gemini無料枠の設定が変更された様子。

2)DeepSeekなどの他の一般的モデルは入力制限を超えるため受け付けない。大概の大型モデルのコンテキストウィンドウは131kあるいは161kに設定されているが、今回の入力は190k。

3)Llama 4 Marverikのコンテキストウィンドウは1000万トークンと破格だが、出力は支離滅裂だった。日本肺癌学会のガイドラインも学習データに入っていない様子。

 

HErR2肺癌でも同様の分析を行ったが、EGFR exon 20 insertionと同様の結果だった。軽量モデルでもコンテキストウインドウが十分大きければ(Gemini 2.5 Flash, GPT-4.1-mini)この程度の分析には十分、という結論。なお、テストは無料枠、低価格モデルを中心なので、Claude は試していない。

 

ベンチマークテストB Gemini 2.5 ProとGPT-5-miniの出力をGPT-5で評価

 

テスト経過

 

CEA ver. 1.52でEGFRの遺伝子変異を全選択、エビデンスレベルA,Bを選択し、以下のプロンプトで分析した。CIViCエントリーが113件でPubMedアブストラクトが88件である。

 

<プロンプト>

あなたは数理統計学、ゲノム科学、臨床腫瘍学の専門家です。
PubMedアブストラクト書類の先頭にCIViCのevidence levelとratingを付記しています。添付のPubMedアブストラクトをすべて読んで、この遺伝子についてまとめてください。PubMedアブストラクトを引用する場合はエビデンスレベル、ratingを付記し、リンクを貼ってください。出力はhtmlでお願いします。

 

Gemini 2.5 ProとGPT-5-miniで分析し、それぞれの出力をGPT-5(MonicaのGPT-5チャットボット、Web検索付き)で評価した。

CIViC EGFR全遺伝子異常エビデンスレベルA,B -- Gemini 2.5 Proによる要約

CIViC EGFR全遺伝子異常エビデンスレベルA,B -- GPT-5-miniによる要約

 

GPT−5の分析

 

GPT-5への指示は次の2点。

2つの文書の異なっている点をあげ、その重要度を評価してください。
内容はレビューとして妥当でしょうか。不足している内容があれば紹介してください。

 

GPT-5総合評価

Gemini文書: 学術レビュー指向で定量データ豊富、最新併用戦略を含む点は高評価。ただし耐性後先端治療(MET併用、HER3 ADC、第四世代阻害薬)・CNS/Stage III維持の最新試験を追加すると2025年仕様として完成度が上がる。
GPT-5-mini文書: 実務指針(アルゴリズム、EGFRvIII)に強み。反面、2024–2025年の治療パラダイムシフト(併用第一線)や新薬開発ラインの網羅不足が課題。
いずれも “レビュー” として基礎〜中核領域は概ね妥当。ただし「最先端トピックとシークエンス最適化」「免疫療法の限定的役割」「Stage III管理」「最新Exon20薬剤」などを補うことで臨床的完成度と実用性が一段向上する。

 

GPT-5分析要約(原文はもっと長い)

両文書の核心的相違は①最新一次併用戦略の網羅性と②実務指向度。Gemini版はFLAURA2・MARIPOSA・MARIPOSA‑2・PAPILLONなど2024–25年の併用試験を表で整理し治療ライン構造を示す一方、gpt-5-mini版はこれらを欠き従来型(単剤中心)の枠組みに留まる。逆にgpt-5-mini版は簡潔な診療アルゴリズムとEGFRvIII/PTEN、ワクチン(rindopepimut)など非NSCLC情報を補強。Gemini版は多数のHR/中央値で定量性が高く、gpt-5-mini版は定性的表現が多い。稀少変異ではGemini版が奏効率具体値、gpt-5-mini版は概要に留まる。耐性進化ではGemini版がC797S cis/trans概念へ軽く触れ、gpt-5-mini版は未記載。両者共通の不足(最新レビューとしてのギャップ)は: 1) LAURA試験(Stage III同時化学放射線後Osimertinib維持) 2) ポスト‑Osimertinib耐性への精緻化(MET増幅に対するOsimertinib+MET阻害薬、HER3 ADC patritumab deruxtecan、第四世代/アロステリックEGFR阻害薬群: BLU‑945等) 3) 新規Exon20薬(sunvozertinib, CLN‑081, furmonertinib)の最新ORR/CNS活性 4) C797S配置(cis/trans)別治療アルゴリズム 5) CNS制御戦略(初回からOsimertinib選択理由の強調) 6) SCLC転換(TP53/RB1共失活例のリスクと対応) 7) 免疫チェックポイント阻害薬の限定的有効性とILDリスク 8) 有害事象管理(皮疹・下痢・ILD)と薬物相互作用 9) 大腸癌でのEGFRコピー数よりもRAS/ BRAF/ MSI / 原発部位の優先度整理 10) CIViC独自のEvidence Levelと一般EBM階層の区別注記。これらを統合し、(a) 最新併用とシークエンス (b) 耐性機序別次治療 (c) 非典型/複合変異ヒートマップ (d) CNS・毒性管理 を追加すれば2025年水準の総説として完成度が高まる。

 

GPT−5の分析の分析

 

まず、Gemini 2.5 Pro とGPT-5-miniへの指示は単純に「まとめる」ことで、特別な指示は行っていない。従って両方のLLMの「素」の性能(あるいは性質)を見ていることになる。GPT-5が指摘する最大の問題は、最新の診療動向が入っていないことだ。カットオフ以降のデータが利用できないのが原因と思われる。

今回のベンチマークテストはあくまでCEA,CEA-MPXの強化を目的としている。最新の診療動向を含めるためには、CEA,CEA-MPXとは異なる機能、例えばRAG、が必要なので、現在の課題からは外す。有害事象管理、CIViC独自のEvidence Levelと一般EBM階層の区別注記など、が問題点として指摘されているので、PubMedアブストラクトからの情報抽出の精緻化をまず目指す。