ヒトゲノムの大きさはどのくらいですか?
この質問はよくされます。 私たちの遺伝暗号はどれくらいの大きさなのでしょうか? DNAの青写真は…何十億もの文字で構成されています…A、G、C、T…人体の何兆もの細胞すべてに存在し、あなたを作っているものなのです。
私たちはそれぞれ30億の塩基対を持つゲノムを持ちますが、1つのヒトゲノムはどれくらいの記憶容量を占めるのでしょうか? もちろん、答えは「場合による」です。
それは、私たちが何について話しているかによるのです。 細胞内の単一の文字列を指しているのでしょうか。 それとも、適切なカバレッジのために各位置に多くの「リード」を持つ必要があり、それに関連する品質データを持つ、ゲノムシーケンサーから得られる生データですか? あるいは、いわゆる「正常な」参照ゲノムと異なる、自分のゲノムのあらゆる場所のリストについて話しているのでしょうか。
以下は、それを分解するさまざまな方法のほんの一部です。 完全な世界 (30 億の文字だけ): ~700 メガバイト
もし、ヒト ゲノムの完全な配列があった場合 (心配するほどの技術的欠陥がないため、配列とともにデータの品質に関する情報を含める必要がない)、ヒト ゲノムの 1 本鎖を構成する文字列 (A, C, G, T) だけ必要なので、答えは約 700 メガバイトになります。 それは次のようなものだろう。
agcccctcaggtccggccacatggaaactcattccggtcagtcagattaccggctcactggcgtcgccggccaactaagaacgtcgtaaatgacttcttaaagtagaatagcgtgctccttccagcctgaaaactcggacaagatcaggtctcgcttcgctgatgatagactgactcctcctccctgcctgcgcgacaacacaatttggtagctaactactgacaagtagagctgactgctgctcccctacacatagtagagctaagtagagcctgcctgcgtgtaacaagtagagtagtagtagcagcctgtaagcctcgcagcagtagtagcagcgcgtcagcagtacaacaacaacaagtagctcagtagcctcctaagcctaagatagcagtagcatagtagcagtagtagtagcatgatgatgatg
計算すること。 各塩基対には2ビット必要です(T、G、C、Aには00、01、10、11を使用できます)。 これをヒトゲノムの塩基対の数に掛けると、2×30億=6,000,000,000ビットになります。 そして、メガバイト単位の答えを得るには、ビットからバイトに変換する必要があることを忘れてはならない。 ビットはデジタル情報の1単位に過ぎませんが、バイトはビットの連続(通常8個)です。 そして、コンピュータは2進数で動くので、1キロバイト=1024(つまり、2×2×2×2×2×2×2×2=1024)です。 1ギガバイト=1024メガバイト=1048576キロバイト=1073741824バイトとなります。 つまり、5,800,000,000ビットを8で割って750,000,000バイトになるわけだ。 それを1024で割ると、732,422キロバイトになります。 それをもう一度1024で割ると715メガバイトになります。 現実の世界では、ゲノムシーケンサーからすぐに取り出せる容量は200ギガバイト程度です
実際、ヒトゲノム全体を配列するには、短い「リード」(プラットフォームによって異なりますが、~100塩基対)をたくさん作成し、参照ゲノムに「アライン」する必要があります。 これはカバレッジとも呼ばれる。 例えば、30倍のカバレッジでシーケンスされた全ゲノムは、平均して、ゲノム上の各塩基が30本のシーケンスリードでカバーされていることを意味します。 例えばイルミナの次世代シーケンサーは、1時間に数百万本の100bpの短いリードを生成でき、これらはしばしばFASTQで保存されます。 これらのファイル形式は、各塩基位置の文字だけでなく、品質など他の多くの情報も保存しています。 以下はFASTQファイルの例です。
@SEQ_ID
GATTTGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*(((***+))%%%++)(%%%).*(((*^^*))%%%%)*((****))%%++).*((*^^*))%%%).*((*^^*))%%%).1***-+*”))**55CCF>>>>CCCC65
この品質データはACGTのように単純ではなく、さまざまな異なる文字や記号が使用されています。 そこで今回は、1文字1文字をビットではなく、バイトとして考えています。 簡単な&汚い、簡略化しすぎた計算をすると、数字は次のようになります。 ヒトゲノムの長さを30億文字、平均カバー率を30倍とすると、1文字を1バイトに対応させると、900億文字になり、約90ギガバイトのディスクスペースを占有することになる。 典型的なFASTQファイルには短報と品質スコアが含まれていることを考えると、総サイズは約180ギガバイトになる(コントロールラインとキャリッジリターンは無視する)。 大きく異なりますが、200ギガバイトとしましょう。
3 変異のリストだけを含むバリアントファイルとして。 ~125メガバイト
個人間で異なるのはゲノムの約0.1%だけで、平均的なヒトゲノムでは約300万のバリアント(別名:突然変異)に相当する。 つまり、ある個人が通常の「基準」ゲノムと異なる場所だけを集めた「差分ファイル」を作ることができます。 実際には、これは通常 .VCF ファイル形式で行われ、最も単純な形式では次のようになります:
chr20 14370 rs6054257 G A 29 PASS 0|0
ここで各行は約 45 バイト使用し、これを任意のゲノム内の約 300 万個の変異で掛けると、 .VCF ファイルのサイズは約 135,000,000 バイトまたは約 125 メガバイトになります。 ゲノムの保存サイズに関するさまざまな見方をいくつか紹介します。 実際、ヒトゲノム全体の完全な文字列は得られないので、1.はあまり当てはまりません。 #3は最も効率的で、下流の解析やインタープリエーションによく使われるものである。 しかし、シーケンシングはまだ不完全な科学であり、バリアントコーリングも不完全なため、2が通常ゲノムを保存する方法です。 そのため、将来的にデータ解析のパラメータを調整するために、生のシーケンスリードと関連する品質データを保存しておく必要があるのです。 たとえば、1000ゲノムプロジェクトのデータは、現在AWSクラウドで利用可能で、1700人の参加者について、>200テラバイトで構成されています。 全ゲノム配列決定のコストが下がり続けているため、より大規模な配列決定研究が展開されているのです。 この1万人規模の自閉症ゲノムプロジェクトや、英国の10万人規模のゲノムプロジェクト、さらには100万人規模のヒトゲノム・プロジェクトに必要なストレージ容量を考えてみてください。 データ解析は追いつくのか、このA、T、G、Cの洪水から何を学ぶのか……」
。