
AlphaGenomeはGoogle Deep Mindがつくったゲノム配列情報から機能を予測するAIである。機能予測は、RNA-Seq, CAGE, DNase(多分プロテクション領域)など測定データの形で出力される。遺伝子発現は遺伝子変異と比較すると、がんでは表現型予測性能は低い。医療現場で遺伝子変異はコンパニオン診断とゲノム医療で広範囲のがん疾患で使われているが、遺伝子発現は乳癌の予後予測のみだ。しかし可能性があるターゲットがないわけでもないので、チェックすることにした。
とりあえずAlphaGenomeをMac環境(Mac mini, M2)で使えるようにしたので、セットアップ方法を紹介しよう。
Python3.12をインストールする
AlphaGenomeでは、ローカルPCにクライアントソフトウェアをインストールして、GoogleのAlphaGenomeサーバーにアクセスして使用する。クライアントソフトウェアはPythonベースのためPythonの環境をまずセットアップする。すべての作業はMacOSのターミナルで行う。
MacにあらかじめインストールされているPythonはPython 2だが、AlphaGenomeは3.10以上が必要。まずhomebrew(インストールされていない場合はhomebrewもインストールする)でPython3.12をインストールする(以降入力コマンドはボールド)。
% brew install python@3.12
% python3.12 -h
help messageでインストールの成功を確認。
仮想環境をつくる
AlphaGenomeは仮想環境下での使用を推奨している。仮想環境は複数のpython projectが混乱したり相互干渉することを防ぐための一般的な処置だ。AlphaGenomeクライアントソフトウェア、matplotlibをインストールする前に仮想環境をつくる。
手順
ホームダイレクトリに作業用フォルダをFinderでつくる(ここではalphag_project)。作業用フォルダに移動。
% cd alphag_project
仮想環境をつくる。
% python3.12 -m venv myenv
仮想環境を起動する。
% source myenv/bin/activate
行先頭のmyenvを確認。仮想環境下ではpython = python3.12なので、python3.12の代わりにpythonと入力してもよい。
matplotlibをインストールする
描画用pythonライブラリであるmatplotlibを仮想環境下でインストールする。
% python -m pip install matplotlib
次のコマンドで動作確認。パイチャートが別ウインドウに表示されればOK。
% python -c 'import matplotlib.pyplot as pyplot; pyplot.pie([1,2,3]); pyplot.show()'
AlphaGenomeクライアントソフトウェアをインストールする
% git clone https://github.com/google-deepmind/alphagenome.git
% pip install -e ./alphagenome
ERRORメッセージが出なければOK。
AlphaGenome API Keyを入手する
クライアントソフトウェアからAlphaGenomeサーバーへのアクセスには、APIキーが必要だ。次のページから指示に従ってAPIキーを入手する。
AlphaGenome
テストスクリプトで動作確認する
次のテストスクリプトを実行して、プロットが表示されればOK。
%python test.py
テストスクリプト test.py(YOUR_API_KEYに入手したAPIキーを入力すること;alphag_projectに保存)
from alphagenome.data import genome
from alphagenome.models import dna_client
from alphagenome.visualization import plot_components
import matplotlib.pyplot as plt
API_KEY = 'YOUR_API_KEY'
model = dna_client.create(API_KEY)
interval = genome.Interval(chromosome='chr22', start=35677410, end=36725986)
variant = genome.Variant(
chromosome='chr22',
position=36201698,
reference_bases='A',
alternate_bases='C',
)
outputs = model.predict_variant(
interval=interval,
variant=variant,
ontology_terms=['UBERON:0001157'],
requested_outputs=[dna_client.OutputType.RNA_SEQ],
)
plot_components.plot(
[
plot_components.OverlaidTracks(
tdata={
'REF': outputs.reference.rna_seq,
'ALT': outputs.alternate.rna_seq,
},
colors={'REF': 'dimgrey', 'ALT': 'red'},
),
],
interval=outputs.reference.rna_seq.interval.resize(2**15),
# Annotate the location of the variant as a vertical line.
annotations=[plot_components.VariantAnnotation([variant], alpha=0.8)],
)
plt.show()

テストスクリプトが成功したときの図
コメント
分子生物学のエキスパートだが、python codeを書いたこともないpython/CLI初心者にとって、最大の難関は環境のセットアップだ。トラブルがなかったわけではないが、GPT-5に聞けば教えてくれるので、大体2,3時間でセットアップできた。上記はその概略だが、ポイントは次の3点。
バージョン3.10以上のpythonをインストール
python仮想環境内で作業する
AlphaGenomeクライアントソフトウェアだけでなくmatplotlibもインストール