GM Abstract Scan(検索式の作成から要約まで PubMed検索をAIで自動化)を合同会社ジーンメトリックスのホームページに無料公開した(GM Abstract Scan | 合同会社ジーンメトリックス)。
GM Abstract Scanは、LLM(large language model, 大規模言語モデル)を用いるPubMed検索補助アプリケーションである。① 任意の指示文(あるいは単語)から検索式をLLMで作成しPubMedを検索;② ダウンロードしたアブストラクトをLLMで分析する。
目的
知識収集の効率化:「医学論文データベース」を読む
現在の生成AIの成長速度を鑑みると、人類社会全体の知識拡張はAI中心になり、ヒトの貢献度は急速に減少するだろう。研究における人の貢献は激減するだろうが、研究から離れて人間中心に考えると、個人の知能、知識の拡張にとって生成AIは強力なツールである。生成AIを効果的に使って効率よく自分の知識を拡張するにはどうすればよいか?チャットボットで知識を獲得するのが常套だが、医学生物学ではNIHのデータベース(MedLine, PubMed)で多量の論文が管理されている。これらのデータベースから効率良く知識抽出できるシステムがあれば便利だ。AIを使って「データベースを読む」ためのツールをつくる。
エビデンスが確認できるレポート、PubMed準拠のレポート作成機能
AIの書いたレポートは、適切な原著論文の引用が少なく、エビデンスの確認に不便を感じる。医学研究者が望む適切な引用のあるレポートが欲しい。Deep Researhを含むチャットボットの応答のもとになっている情報は、PubMedを通して私達が収集する情報とは異なるバイアスがあり、経験のある医学生物学研究者には違和感がある。PubMedに準拠したレポート作成機能が欲しい。
経緯
2025 ASCO Annual Meetingの演題整理のスクリプトをAIでつくったところ、リリースされたばかりのChatGPTは段違いの性能だった。そこで研究の方向をAIを用いた解析あるいは開発に全面的に切り替えることにした。
研究対象には、自らが熟知していて、しかも無料で十分な量がある対象を選択することにした:一つは塩基配列及びアミノ酸配列情報、いま一つは医学生物学文献情報である。両方ともNCBIが管理し、ライセンスフリーで無料公開されている。少し塩基配列情報を扱った後、文献情報に焦点を絞ることにした。
精密医療に関連したエビデンスのデータベースにCIViC (Clinical Information of Variants in Cancer) がある(CIViCとは? AI分析に最適な臨床エビデンスと遺伝子異常のデータベースの特徴 - 精密医療電脳書)。CIViC のレコード数は5000−6000程度で、データは完全に著作権を放棄した状態で無料公開されている。レコード数が少ないので、すべてダウンロードしてハンドリングツール作成を行った(pm-toolboxにて公開)。この小規模データベースでの経験の後、PubMedを扱うことにした。
PubMedに集中する理由
PubMed は、米国国立医学図書館(NLM)の一部である国立生物工学情報センター(NCBI)が提供する、世界最大級の医学・生命科学文献データベースである。 3,900万件以上の文献情報(MEDLINE等)を収録しており、タイトル、著者、アブストラクト(抄録)、MeSH(統制語彙)などを検索できる。世界中の医師、研究者が「エビデンス(科学的根拠)」を探すための最良のリソースだ。これより大きな文献サービスもあるが、PubMedは雑誌収録には審査があるので、クオリティの低い雑誌は除外されている。PubMedは論文のアブストラクトのみの公開だが、オープンソースの論文については全文がPubMed Centralで公開されている。
GM abstract scanでは、アブストラクトのみを扱い、論文全文は扱わない。理由は大きく2つある。
1.アプリケーションの目的を効率の良い知識収集に置いているので、多量の論文の迅速処理を行いたい。そのためには、アブストラクトのみに集中するほうが効率的。
2.論文全文を扱おうとすると著作権とライセンスの問題に突き当たる。全文を自由に扱える論文はオープンアクセスで商用や改変制限のないものに限られるため、情報に偏りがある。検索に余計なバイアスを入れないためにアブストラクトのみに限定する。
GM abstract scanの仕組み
できるだけ労力を使わずに、知りたい情報を迅速に手にいる -- これが目標。検索式をLLMで作成して、PubMedを検索するシステムをベースに選択したアブストラクトを日本語で要約するシステムだ。
検索式の作成 ー> アブストラクト・ダウンロード
PubMedは単純な英単語の羅列で検索できるが、日本語の単語、あるいは自然文を入力するとLLMが検索式を作成する。ポイントはLLMが自動的に類義語を作成することだ。通常の単語入力と異なり、検索範囲を正確に広げてくれる。検索式を使ってNCBI PubMedを検索し、50−200件のアブストラクトをローカルPCにダウンロードする。
日本語要約の作成
ダウンロードファイルは色々な使い方ができるが、個々のアブストラクトの簡単な要約(個別要約)とダウンロードファイル全体の内容を要約してレポートを作成する(全体要約)が基本的な使い方だろう。アプリケーションや解説書でこれらの使い方を説明している。
全体要約に関しては、検索順位をbest match、すなわち検索クエリへの適合度順にすると良い。50−100件のダウンロードファイルで、検索トピックに関する必要十分な報告書をつくってくれる。検索順位を出版日順(date, most recent)でも報告書作成は可能だが、best matchと比較すると焦点がぼやけたものになる。
NCBIへのハイパーリンクつきのPubMed IDでアブストラクト本文を参照できるようにしてある。アブストラクトから論文本文へのアクセスも可能なので、エビデンス確認は容易だ。
日本語で出力可能な点も重要。母国語でない言語を使うとIQ換算で10ハンディキャップがある、という研究もあり、これまでの医学生物学論文は英語、という習慣を根本から変えることができる。
3.分析自由度の保証:ユーザーが生成AIに分析の指示ができる
自分の目的は個別要約と全体要約なので、他の使い方は調べていないが、ユーザー指示ボックスから生成AIに様々な分析指示が可能だ。
使用感
150件以上のトピックで個別要約と全文要約を評価したが、満足できる結果だった。ふつうのトピックだけでなく、「睡眠サプリ」のような健康ネタや「スタートレックのトリコーダーに類似のデバイス」「火星における人体負荷」のようなSFネタでも現在の最新研究動向を正確に伝えてくれる。
使ってわかった技術的特徴は2点ある。
類義語作成能力は、最新のLLM(GPT-5以降、GPT-5.x, Gemini 3)とそれ以前のものとではかなり差があり、GPT-5以降のLLMを使用する必要がある。
PubMed検索のbest matchは強力。どのようなトピックでも50−100件のダウンロードファイルで満足できるレポートを作成する。200件は不要だ、と思う。