精密医療電脳書

分子標的薬 コンパニオン診断 コンパクトパネル 人工知能

Clinical Information of Variants in Cancer(CIViC): AI分析に適した臨床エビデンスと遺伝子異常のデータベース

精密医療(プレシジョン・メディシン、Pprecision medicine)は遺伝子情報により治療薬選択を行う医療の一分野だが、この医療領域のAI(artificial intelligence)研究には2つの可能性がある:一つは大規模言語モデル、もう一つはdeep learningで開発された分子生物学領域のツールだ。大規模言語モデルの分析対象は精密医療に関連した臨床論文になるが、Clinical Information of Variants in Cancer(CIViC)はその代表的なデータベースである。癌の遺伝子異常のデータベースでは、COSMICが有名だが、それとは異なる特徴があり、LLMの分析対象としては第一の選択肢となる。

 

 

由来

 

CIViCは、Nature Geneticsの論文から2017年頃から始まった事業だ、と思われる。癌のゲノム解析が臨床分野で脚光を浴びだした時期で、2018年にはRoscheがFoundation Medicineを買収している。Foundation MedicineやMSK−impact等の大型の遺伝子検査パネルから得られる多量の遺伝子配列情報を臨床現場でどのように活用したらよいのか、試行錯誤が続いていた時期だ。変異の解釈がボトルネックとなっており、多くの医療機関や研究機関が独立した「情報の孤立状態」の中で解釈を進めてた。CIViCは、これらの問題を解決するためにつくられたオープンアクセス型知識基盤で、解釈情報の中央集約、自由なアクセス、正確な解釈を目標としている。

FDAは2017年にFoundation One CDxを承認、厚生労働省は2019年に遺伝子検査パネルを保険適用しているので、日本の状況は大体米国から2年遅れている。現在のゲノム医療の状況を調べたところ、ほぼ完全にルーチン化していて、分子標的薬の対象遺伝子異常があるかどうかスクリーニングする作業になっている。Foundation One CDxの検査レポートに遺伝子異常に関する詳細なレポートが添付されていることもあり、CIViCやCOSMICなどのデータベースの意義は希薄化している。

 

データベースの構造

 

CIViCは治療薬の臨床エビデンスを中核としたデータベースであるため、収録されているデータの構造がCOSMICやClinVarとは異なる。COSMICやClinVarでは、個々のバリアントに論文情報が紐づいているが、CIViCでは臨床エビデンスと分子プロファイル(molecular profile)のペアが一つのレコードとして登録されている。遺伝子変異ではなくて分子プロファイルという点が重要で、たとえば"EGFR exon 19 deletion", "EGFR L858R", "EGFR exon 19 deletion OR L858R"は別々の分子プロファイルになっている。臨床エビデンスが出発点で、個々の臨床エビデンスに分子プロファイルが設定されている。変異や融合遺伝子だけではなく、増幅、遺伝子発現(低発現)なども分子プロファイルに含まれる。

 

分子プロファイルのリスト CIViC Molecular Profile List - PM-Toolbox

 

バリアント情報は別のデータファイルにまとめられているが、分子プロファイルが優先されているためレコードの構造が特殊だ。例えば、分子プロファイル”EGFR L858R”の場合、バリアント情報のレコードでは、"EGFR L858R"は"EGFR"という遺伝子(gene)と"L858R"という変異(variant)の2つのアイテムに分離されて、L858Rの塩基位置が登録される。分子プロファイル"EGFR exon 19 deletion OR L858R"のバリアント情報のレコードは存在しない。COSMICやCinVarとはデータベースの構造が異なっている点に注意する必要がある。

CIViCにはエビデンスレベルと格付け(rating)の2つの評価システムで臨床エビデンスを評価している。ClinVarにもエビデンスを評価するシステムがあるが、バリアントが対象で、個々の臨床エビデンスを評価しているわけではない。

 

メインテナンスの方法

 

CIViCでは、国際的で学際的な専門家チームが、正確な出典情報を持つ遺伝子変異の解釈を作成し、データベースとして最新の状態で提供している。一般からの投稿も受け付けているが、専門家によるレビューの後で公開されることになっている。レコードの追加、編集は現在でも継続的に行われており、20件/月程度のペースで増えている。

組織形態は不明だが、データベースの維持には多数の医療機関が参加している。イルミナ社も参加している。

登録されている臨床エビデンスは完全ではなく、結構有名な論文も収録されていない。例えば東北のグループのゲフィチニブの第3相、ロルラチニブの第3相など。この2つの例では、それぞれエビデンスレベルAの別の報告が収録されている。生成AIを使った分析では、臨床エビデンスの論文報告は重複しているため、致命的な問題にはならない。論文検索ならばPubMedを使えば良い。

 

ライセンス・著作権の放棄

 

CC0 1.0 Universal:世界全地域において著作権法上認められる、その者が持つすべての権利(その作品に関する権利や隣接する権利を含む)を、法令上認められる最大限の範囲で放棄して、パブリック・ドメインに 提供。たとえ営利目的であっても、許可を得ずに複製、改変・翻案、配布することができる。

この点が最も重要なポイントで、他のCOSMIC, OncoKB などは制限が強くて、事実上LLMでの分析はできない。

 

まとめ

 

LLMで臨床エビデンスを分析する場合、ライセンスによる利用制限により、使える素材は限られる。CIViCは著作権を完全に放棄しているため、ライセンスの問題を考慮せずにLLMを使うことができる。データの完全性はないが、臨床エビデンスは冗長なので、分析対象としては十分だ。