文献詳細
文献概要
今月の特集 知っておきたい がんゲノム医療用語集
解析(バイオインフォマティクス)に関する用語
著者: 谷嶋成樹1
所属機関: 1三菱スペース・ソフトウエア株式会社関西事業部バイオメディカルインフォマティクス開発部
ページ範囲:P.940 - P.949
文献購入ページに移動ベースコール,マッピング/アライメント,変異コール
■ベースコール(basecall)
DNAシークエンサーでは,解析対象のDNA配列に塩基の種類ごとに異なる蛍光物質を結合させ,蛍光の波長と強度により塩基を読み取る.例えば,SBS(sequencing by synthesis)法1)として知られる次世代シークエンサーの塩基決定手法では,一度に数十万〜数億個のDNA断片の塩基配列を読み取ることができる.これらは蛍光強度を示す数値として記録される.一般的に生データ(raw data)と呼ばれるのはこの形式のデータである.
ここからDNA変異などの解析を行うためには,蛍光強度データをアデニン(adenine:A),チミン(thymine:T),グアニン(guanine:G),シトシン(cytosine:C)のDNA配列データに変換しなければならない.このような,生データからDNA配列データへの変換プロセスをベースコールと称する.一般的に,ベースコールされたデータはFASTQと呼ばれるテキスト形式で保存される.ベースコールに使用するソフトウエアはシークエンスメーカーから提供されることが多い.
■ベースコール(basecall)
DNAシークエンサーでは,解析対象のDNA配列に塩基の種類ごとに異なる蛍光物質を結合させ,蛍光の波長と強度により塩基を読み取る.例えば,SBS(sequencing by synthesis)法1)として知られる次世代シークエンサーの塩基決定手法では,一度に数十万〜数億個のDNA断片の塩基配列を読み取ることができる.これらは蛍光強度を示す数値として記録される.一般的に生データ(raw data)と呼ばれるのはこの形式のデータである.
ここからDNA変異などの解析を行うためには,蛍光強度データをアデニン(adenine:A),チミン(thymine:T),グアニン(guanine:G),シトシン(cytosine:C)のDNA配列データに変換しなければならない.このような,生データからDNA配列データへの変換プロセスをベースコールと称する.一般的に,ベースコールされたデータはFASTQと呼ばれるテキスト形式で保存される.ベースコールに使用するソフトウエアはシークエンスメーカーから提供されることが多い.
参考文献
1)Bentley DR, Balasubramanian S, Swerdlow HP, et al:Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456:53-59,2008
2)Li H, Durbin R:Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25:1754-1760,2009
3)Li H, Durbin R:Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics 26:589-595,2010
4)The SAM/BAM Format Specification Working Group:Sequence Alignment/Map Format Specification, 2019 (http://samtools.sourceforge.net/SAM1.pdf)(最終アクセス:2019年5月24日)
5)Yarchoan M, Hopkins A, Jaffee EM:Tumor Mutational Burden and Response Rate to PD-1 Inhibition. N Engl J Med 377:2500-2501,2017
掲載誌情報