精密医療電脳書

分子標的薬 コンパニオン診断 肺がん ウイルス 人類観察

分子バーコード技術:バーコードに入ったエラーの処理

分子バーコード技術は次世代シークエンサーのエラーを激減させる決定的な技術であるが、バーコード内にもエラーが入る、という原理的な問題を抱えている。この問題を解決する方法について説明する。

precision-medicine.jp

 

発生する問題

分子バーコード技術では一つの分子に一つのバーコードを付着する。デザイン通りバーコード内にエラーが入らなければ、リード数/バーコードを横軸、バーコード数を縦軸にプロットすると、図1ボックスのような正規分布になるはずである。そしてリード数を増やせば、そのピークが大きくなる方向に移動するはずである。ところが実際には次世代シークエンサーの出力量(総リード数)にかかわらず、バーコード数は、リード数/バーコードが1−10程度をピークに、大きくなるにつれ減衰する曲線になる(図1)。これはPCRと次世代シークエンシングの間にバーコードにエラーが入るためである。エラーの入ったバーコードはリード数が少ないため、リード数の少ないバーコードが激増するわけである。

f:id:kkatogo13:20200926111132p:plain

図1.バーコード数の分布。横軸、リード数/バーコード;縦軸、バーコード数。

図1からも明らかにように、エラー入りバーコードの数は無視できる量ではなく、何らかの対策が必要である。また分子バーコード技術ではエラー除去だけではなくユニークなバーコード数をカウントすることにより分子数を計測できる。この分子数計測が全くできなくなってしまう。2つの解決法がある:限定数のバーコード・セットを作成する方法と3種類の塩基でバーコードを作る方法がある。

 

限定数のバーコード・セット

分子バーコードを以前に述べたようなランダムな塩基配列にせず、限定数のバーコード配列を作成、その各々にエラーが入った配列がこのセットの配列と重複しないようにすれば良い。セットの作り方の例としては、まずバーコード配列間の距離を定義する:配列が似ていれば距離が短くなるような指標を設定、エラーの入った配列を除去できる閾値を決める。バーコード配列間の距離すべてが閾値以上になるような配列セットを作れば良い。距離の例としては、異なった塩基の数などある。この方法の問題点はコストである。ランダム配列の場合は、1回の合成で作成可能だが、限定数バーコード・セットの場合は個々のバーコードを別々に合成する必要がある。コストが高いため大規模なセットの作成は難しい。従って哺乳類のゲノムのような複雑性の高いゲノムには使えない。

 

3種類の塩基を用いるバーコード

3種類の塩基の混合物でランダムな配列をバーコード生成配列(図2)とすると、使っていない塩基が出現した場合はエラーと判定できる。この方法ではエラー入バーコードの同定はできないが、エラー入バーコードの数は推定できる。すなわち、同定されたエラー入りバーコード数を3倍すれば良い。

f:id:kkatogo13:20200926111357p:plain

図2.3種類の塩基を用いるバーコード。

図1の解説で述べたように、エラー入りバーコードはリード数が少ないので、エラーの無いバーコードの比率を縦軸に、リード数/バーコードを横軸にプロットすると、リード数/バーコードが増加するに従いエラーの無いバーコードの比率が上昇する(図3A)。適切な閾値以下のバーコードを除去すれば、エラーの無いバーコードを選択できる。この方法を用いた定量実験が図3Bである。良好なDNAの分子数計測が可能である。

f:id:kkatogo13:20200926111500p:plain

図3.A, バーコード数の分布。横軸、リード数/バーコード;縦軸、エラーなしバーコードの比率。B, エラー入りバーコード除去の効果。横軸、入れたDNA量;縦軸、エラー入りバーコード除去後の分子バーコードで計測した分子数。

 

3種類の塩基を用いるバーコードは下記特許の一部である。

日本国特許第6125731号.核酸分子数計測法.発明者:加藤菊也,久木田洋児、的場亮.特許権者:大阪府立病院機構、株式会社DNAチップ研究所,発行日:2017年4月14日,出願日:2015年7月2日.