Wie groß ist das menschliche Genom?
Diese Frage wird mir oft gestellt. Wie groß ist unser genetischer Code? Du weißt schon… dieser DNA-Bauplan… bestehend aus Milliarden von Buchstaben… A’s, G’s, C’s, T’s… vorhanden in allen TRILLIONEN von Zellen im menschlichen Körper… das Ding, das dich zu dir macht. Wie groß ist es wirklich?
Wir alle haben ~3 Milliarden Basenpaare in unseren Genomen, aber wie viel Speicherplatz nimmt ein menschliches Genom ein? Die Antwort lautet natürlich:
Es kommt darauf an.
Es kommt darauf an, worüber wir sprechen. Beziehen wir uns auf die einzelne Buchstabenfolge in Ihren Zellen? Oder die Rohdaten, die von einem Genom-Sequenzer kommen, der an jeder Position viele „Reads“ haben muss, um eine angemessene Abdeckung zu erreichen, und mit dem Qualitätsdaten verbunden sind? Oder geht es nur um die Liste aller Stellen in Ihrem Genom, an denen Sie sich vom so genannten „normalen“ Referenzgenom unterscheiden?
Hier sind nur einige der vielen Möglichkeiten, wie man es aufschlüsseln kann:
1. In einer perfekten Welt (nur Ihre 3 Milliarden Buchstaben): ~700 Megabyte
Wenn Sie eine perfekte Sequenz des menschlichen Genoms hätten (ohne technologische Fehler, über die man sich Sorgen machen müsste, und daher ohne die Notwendigkeit, zusammen mit der Sequenz Informationen über die Datenqualität zu liefern), dann bräuchten Sie nur die Buchstabenfolge (A, C, G und T), aus der ein Strang des menschlichen Genoms besteht, und die Antwort wäre etwa 700 Megabyte. Sie würde etwa so aussehen:
AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCACCTTGGCGTCGTCCGGCGGCAAACTAAGAACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCCCCGAAAAACTCGGACCAAAGATCAGGCTTCCGTTCTTCGAGTGATGACTGACTGCGCCTCTTCGTACAACCAATTTAGTAGGTGAGTTCAAACTTCAGGTCCAGGATAATACTTACCCAACAACATAG
Um die Rechnung zu machen, Jedes Basenpaar benötigt 2 Bits (Sie können 00, 01, 10 und 11 für T, G, C und A verwenden). Multipliziert man dies mit der Anzahl der Basenpaare im menschlichen Genom, so erhält man 2 * 3 Milliarden = 6.000.000.000 Bits. Und denken Sie daran, dass Sie von Bits zu Bytes übergehen müssen, um eine Antwort in Megabytes zu erhalten. Ein Bit ist nur eine einzelne Einheit digitaler Information, ein Byte ist eine Folge von Bits (normalerweise 8). Und da Computer binär arbeiten, ist 1 Kilobyte = 1024 (d. h. 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 Gigabyte = 1024 Megabytes = 1048576 Kilobytes = 1073741824 Bytes. Man nimmt also die 5.800.000.000 Bits und teilt sie durch 8, um 750.000.000 Bytes zu erhalten. Teilen Sie das durch 1024 und Sie erhalten 732.422 Kilobyte. Teilt man das noch einmal durch 1024, bleiben 715 Megabyte übrig. Ja, das passt ziemlich genau auf eine CD-Rom, nicht dass irgendjemand diese Dinger noch benutzt.
2. In der realen Welt, direkt aus dem Genom-Sequenzer: ~200 Gigabyte
In der Realität muss man, um ein ganzes menschliches Genom zu sequenzieren, einen Haufen kurzer „Reads“ (~100 Basenpaare, je nach Plattform) erzeugen und sie dann am Referenzgenom „ausrichten“. Dies wird auch als Abdeckung bezeichnet. Ein ganzes Genom, das mit einer 30-fachen Abdeckung sequenziert wurde, bedeutet zum Beispiel, dass jede Base des Genoms im Durchschnitt von 30 Sequenzier-Reads abgedeckt wurde. Die Sequenziergeräte der nächsten Generation von Illumina können beispielsweise Millionen von kurzen 100-bp-Reads pro Stunde erzeugen, die häufig in FASTQ gespeichert werden. Diese Dateiformate speichern nicht nur den Buchstaben jeder Basenposition, sondern auch viele andere Informationen wie die Qualität. So sieht eine FASTQ-Datei aus.
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!“*((((***+))%%%++)(%%%%).1***-+*“))**55CCF>>>>>>CCCCCCCCC65
Diese Qualitätsdaten sind nicht so einfach wie ACGT, da eine Vielzahl von verschiedenen Buchstaben und Symbolen verwendet wird. In diesem Fall betrachten wir also jeden Buchstaben als ein Byte und nicht als ein Bit. Wenn man eine schnelle & schmutzige, stark vereinfachte Rechnung anstellt, sehen die Zahlen wie folgt aus: Geht man von einer Länge des menschlichen Genoms von 3 Milliarden Buchstaben und einer durchschnittlichen Abdeckungstiefe von 30× aus, so hätten wir 90 Milliarden Buchstaben, die ungefähr 90 Gigabyte Festplattenspeicher beanspruchen, wenn wir ein Zeichen einem Byte zuordnen. Wenn man bedenkt, dass eine typische FASTQ-Datei sowohl Short-reads als auch Quality Scores enthält, würde die Gesamtgröße etwa 180 Gigabyte betragen (ohne Steuerzeilen und Zeilenumbrüche). Die Größe variiert stark, aber sagen wir 200 Gigabyte.
3. Als Varianten-Datei, nur mit der Liste der Mutationen: ~125 Megabyte
Nur etwa 0,1 % des Genoms unterscheidet sich von Individuum zu Individuum, was etwa 3 Millionen Varianten (auch Mutationen genannt) im durchschnittlichen menschlichen Genom entspricht. Das bedeutet, dass wir eine „Diff-Datei“ erstellen können, die nur die Stellen enthält, an denen ein bestimmtes Individuum vom normalen „Referenz“-Genom abweicht. In der Praxis wird dies in der Regel in einem VCF-Dateiformat durchgeführt, das in seinem einfachsten Format etwa so aussieht:
chr20 14370 rs6054257 G A 29 PASS 0|0
wobei jede Zeile ~45 Byte benötigt, und wenn man dies mit den ~3 Millionen Varianten in einem gegebenen Genom multipliziert, erhält man eine VCF-Dateigröße von etwa 135.000.000 Byte oder ~125 Megabyte.
So sieht es aus. Ein paar der vielen Möglichkeiten, die Größe des Genomspeichers zu betrachten. Praktisch gesehen trifft Nr. 1 nicht wirklich zu, da man nie eine perfekte Zeichenkette des gesamten menschlichen Genoms erhält. #Nr. 3 ist am effizientesten und wird häufig für die nachgeschaltete Analyse und Interpretation weitergegeben. Aber die Nummer 2 ist die Art und Weise, wie Genome normalerweise gespeichert werden, denn die Sequenzierung ist immer noch eine unvollkommene Wissenschaft, ebenso wie die Variantenbestimmung. Man muss also die Rohdaten der Sequenzierung und die zugehörigen Qualitätsdaten aufbewahren, um bei Bedarf die Parameter der Datenanalyse zu optimieren.
Das bedeutet, dass wir uns alle auf eine große Flut von Genomdaten einstellen sollten. Die Daten des 1000-Genome-Projekts zum Beispiel sind jetzt in der AWS-Cloud verfügbar und umfassen >200 Terabyte für die 1700 Teilnehmer. Da die Kosten für die Sequenzierung ganzer Genome weiter sinken, werden immer größere Sequenzierungsstudien durchgeführt. Man denke nur an die Speicheranforderungen des 10K-Autismus-Genom-Projekts oder des britischen 100k-Genom-Projekts….. oder sogar… ach was… das Millionen-Mensch-Genom-Projekt. Der Rechenaufwand ist enorm, und die große Frage lautet: Kann die Datenanalyse mithalten, und was werden wir aus dieser Flut von A’s, T’s, G’s und C’s lernen….?