前の研究ノートで、EML4-ALKの発現量予測について述べた。
precision-medicine.jp
データベースに登録されているEML4-ALKの融合部位は他にもあるので、それらの分析を行い、EML4-ALKのバリアントに発現の多様性があるかどうかチェックした。
分析ワークフローの概略
ChimerDB ChimerSeqをEML4-ALKで検索し重複を除去すると、24個の融合部位が登録されていた。そのうち6個は融合部位がALKの外側だったので18個の融合部位を分析することにした。
AlphaGenomeのバッチ処理は以下の要領で行った。バッチ処理の部分には番号をつけた。途中LiftOverによる座標変換と目視によるエクソン確認作業の2つのマニュアル操作が必要だ。
① ChimerSeq tsvファイルからLiftOver入力フォーマットへの変換(gawk)。
- LiftOverでhg19→hg38座標変換を行う;次の操作の入力ファイル(hg38座標とプラス鎖・マイナス鎖)を作成。
② NCBIから融合部位の5’側と3’側のゲノム配列500KBを取得、プラス鎖・マイナス鎖の情報に基づき接合部位のゲノム配列を作成する;それぞれの配列は別々のファイルに格納(perl)。
③ AlphaGenomeでRNA-Seqを予測し、numpyで出力する。データ数は1,048,576x4。各融合部位のデータは別々のファイルに格納(python)。
- いくつかの融合部位について単一ファイル用スクリプトを走らせて出力をグラフ表示する。エクソンの位置と発現量(RNA-Seq)から、発現量の平均算出のためのゲノム領域(複数のエクソンを含む領域)と発現量の閾値を設定する。
④ 発現量閾値に基づいて設定したゲノム領域の発現量の平均と標準偏差を算出する(gawk)。
RNA-Seqグラフ表示からALKエクソン領域と発現量閾値を設定する

シリアル番号1.RNA-Seq。上から2つ目のパネルがtotal RNA-Seqで主要な観察対象。
エクソンに相当する部分にピークがある。その値は0.2以上なので発現陽性の閾値を0.2とした。3‘側融合点は29227672、最終エクソン29の最終塩基部位は29192773なので、3‘側融合点より34899塩基をALK遺伝子の発現領域とした。0.2 rpm以上のデータポイントを集計し、平均と標準偏差を算出した。バックグラウンド測定は564289から574289の塩基で行った。0.05以下のデータポイントを集計し平均と標準偏差を算出した。シリアル番号1の場合平均0.00236、標準偏差0.00298。
結果

AlphaGenomeによるEML4-ALK融合遺伝子ALK部分の発現量予測値。RNA-Seqの単位はreads per miilion(RPM):100塩基/リードとしたときの100万リードあたりのリード数。
結果を簡単にまとめると、
1)EML4が逆向きの場合は発現しない。
2)融合部位による発現量の有意な差はない。