肺がんの精密医療や厚生労働省のゲノム医療では、遺伝子検査パネルを使いますが、これは次世代シークエンサーを使う検査です。次世代シークエンサーはヒトゲノムの全遺伝情報を一度に決定できる強力な技術で、現在のバイオサイエンスにとって必須の技術です。この技術について説明します。
ヒトゲノムの情報量
1990年代から2000年代初頭にかけて国際的なチームによりヒトゲノムの全遺伝子情報(全塩基配列)が決定されました。これがヒトゲノム計画で、当時は次世代シークエンサーがなかったため、膨大な費用と労力が必要でした。ヒトゲノム計画の成果であるヒトゲノム配列は参照配列 reference sequence と呼ばれ、現在のヒトゲノム解析の基盤になっています。この参照配列からヒトゲノムの情報量がわかります(図1)。ヒトゲノムのDNAはA,C,G,Tの4つの塩基から構成されるため、一つの塩基の情報量は2ビット、4塩基で1バイトになります。ヒトゲノムの大きさは約31億塩基なので、775MB(メガバイト)です。CD1枚が650MBなので、それより少し大きい情報量となります。
次世代シークエンサーの動作原理
初代シークエンサーはサンガー法という1970年代後半に開発された方法を利用したシークエンサーです。次世代シークエンサーは初代シークエンサーとは次元の違う塩基配列決定能力があります。図2では、動作原理を簡略化して示してあります。
次世代シークエンサーでは、まず基盤上にDNA断片を撒いて、その表面上でPCRをおこないます(増幅産物が橋状になるためbridge PCRといいます)。その結果基板上には一分子のDNA断片由来の増幅DNAのスポットが多数できます。このスポットを鋳型にしてDNAの合成反応を1塩基ずつ行って塩基配列を決めていきます。A,C,G,Tの4つの基質を別々の蛍光色素で標識し1塩基合成反応を行うと、それぞれのスポットは取り込まれた塩基の蛍光を発します。これをCCDカメラで記録します。次に蛍光色素を外した後、次の塩基の合成反応を行いCCDカメラで記録します。この操作を繰り返すことにより、それぞれのスポットの鋳型DNAの塩基配列を決定することができます。例えば、100,000個のスポットについてこの操作を150回繰り返すと1500万塩基決定することができます。
この方式の大きな特長は、DNAのスポットを集積すれば、アウトプットをいくらでも向上できる点です。現在の最新機種NovaSeqでは、1回あたりのスポット数は80−100億個、1個について300塩基決定できるので、配列塩基総数は2.4−3兆になります。ヒトゲノムの塩基数は31億なので、1回の操作でその1000倍出力可能ということになります。
データ解析方法
次世代シークエンサーを用いたヒトゲノム配列決定では、参照配列に出力配列を貼り付け、参照配列と異なった塩基を同定することで行います。ランダムに配列決定するため、全領域をカバーするためには大体ゲノムサイズの約20倍の配列を用いるのが標準です。従ってNovaSeq一回の操作で48人分のヒトゲノムが決定されます。
ヒトゲノムの配列には、人種間で異なる配列があり、これはdbSNPというデータベースに格納されています。また、いろいろな疾患と関連している配列もあり、これらはClinVarというデータベースに格納されています。決定されたそれぞれの個人のヒトゲノム配列は、これらのデータベースを用いて詳細な解析を行います。解析の概要については図3にまとめました。
開発の歴史
これまで解説した次世代シークエンサーは超並列シークエンサー massively parallel DNA sequencer とよばれるもので、他に2種類ほど動作原理の異なる次世代シークエンサーがあります。超並列シークエンサーにはイルミナ社とサーモフィッシャー社の2つの系列があり、解説してきたのはイルミナ社のものです。癌の精密医療・ゲノム医療にはどちらの会社の機器も使われていますが、ヒトゲノム全体にはイルミナ社のもののみが使われています。
イルミナ社の超並列シークエンサーを開発したのはシドニー・ブレンナー(Sydney Brenner, 1927-2019)(2002年ノーベル賞受賞)博士です。私は1990年初頭に彼の研究室で研究をしていましたが、その頃に開発を開始していました。当時から、短鎖の配列を多量に生産して、ゲノム計画で完成した配列で由来を調べれば良い、という考えでした。米国にLynxというベンチャー企業を創り、そこでプロトタイプの技術 Massively parallel signature sequencing MPSSを完成、その後Lynxの研究者がSolexaという会社で開発を続け製品化し、Solexaをイルミナ社が買収し、現在に至っています。