Quanto è grande il genoma umano?
Mi fanno spesso questa domanda. Quanto è grande il nostro codice genetico? Sai… quella cosa del DNA… composta da miliardi di lettere… A, G, C, T… presente in tutte le TRILIONI di cellule del corpo umano… la cosa che ti rende te stesso. Quanto è grande in realtà?
Ognuno di noi ha ~3 miliardi di paia di basi nel suo genoma, ma quanto spazio di stoccaggio occupa un genoma umano? La risposta, ovviamente, è:
Dipende.
Dipende da cosa stiamo parlando. Ci stiamo riferendo a quella singola stringa di lettere all’interno delle vostre celle? O ai dati grezzi che escono da un sequenziatore di genoma, che deve avere molte “letture” in ogni posizione per una copertura adeguata, e ha dati di qualità associati? O forse stiamo solo parlando dell’elenco di ogni punto del tuo genoma in cui differisci dal cosiddetto genoma “normale” di riferimento?
Ecco alcuni dei molti modi di scomporre la questione:
1. In un mondo perfetto (solo i tuoi 3 miliardi di lettere): ~700 megabyte
Se tu avessi una sequenza perfetta del genoma umano (senza difetti tecnologici di cui preoccuparsi, e quindi senza bisogno di includere informazioni sulla qualità dei dati insieme alla sequenza), allora tutto ciò di cui avresti bisogno è la stringa di lettere (A, C, G e T) che compongono un filamento del genoma umano, e la risposta sarebbe circa 700 megabyte. Sarebbe qualcosa di simile a questo:
AGCCCCTCAGGAGTCCCCCCACATGGAAACTCCTCATTGGAGGTCAGTCAGATTTACCCTGGCTCACCTTGGCGTCGCGTGGCGGCGGCAAACTAAGAACACACGTCGTCTAAATGACTTTAAAGTAGAATAGCGTGTTCTCTCTCCCCCCCCCCTAGTCCGAAAAACTCGGACCAAAGATCAGGCTTGTGTTTGCTAGTGATGAGACTGCGCCTCTGTTGTTCAAACTCGTACAACCAATTTAGGTGAGGCTGATAATCTACTTACCCAAACATAG
Per fare i conti, ogni coppia di basi richiede 2 bit (puoi usare 00, 01, 10 e 11 per T, G, C e A). Moltiplicatelo per il numero di coppie di basi nel genoma umano, e otterrete 2 * 3 miliardi = 6.000.000.000 di bit. E ricordate, dovete passare dai bit ai byte per arrivare a una risposta in megabyte. Un bit è solo una singola unità di informazione digitale, ma un byte è una sequenza di bit (di solito 8). E poiché i computer lavorano in matematica binaria, 1 kilobyte = 1024 (cioè 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabyte = 1024 megabyte = 1048576 kilobyte = 1073741824 byte. Quindi prendi i 5.800.000.000 di bit e dividili per 8 per ottenere 750.000.000 di byte. Dividi per 1024 e ottieni 732.422 kilobyte. Dividilo ancora una volta per 1024 e ti rimangono 715 megabyte. Sì, potrebbe stare su un CD-rom, non che qualcuno usi più quelle cose.
2. Nel mondo reale, direttamente dal sequenziatore del genoma: ~200 gigabyte
In realtà, per sequenziare un intero genoma umano, è necessario generare un mucchio di brevi “letture” (~100 coppie di basi, a seconda della piattaforma) e poi “allinearle” al genoma di riferimento. Questo è anche noto come copertura. Per esempio, un intero genoma sequenziato a copertura 30x significa che, in media, ogni base del genoma è stata coperta da 30 letture di sequenziamento. I sequenziatori di prossima generazione di Illumina, per esempio, possono produrre milioni di letture brevi da 100 bp all’ora, e queste sono spesso memorizzate in FASTQ. Questi formati di file memorizzano non solo la lettera di ogni posizione di base, ma anche molte altre informazioni come la qualità. Ecco come appare un file FASTQ.
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>CCCCCCC65
Questo dato di qualità non è semplice come ACGT, perché ci sono una varietà di lettere e simboli diversi utilizzati. Quindi, in questo caso, consideriamo ogni lettera un byte piuttosto che un bit. Usando qualche veloce &matematica sporca e troppo semplificata, i numeri appaiono così: Supponendo una lunghezza del genoma umano di 3 miliardi di lettere e una profondità media di copertura di 30×, avremmo 90 miliardi di lettere, che occupano approssimativamente 90 gigabyte di spazio su disco, se mappiamo un carattere a un byte. Considerando che un tipico file FASTQ contiene sia le letture brevi che i punteggi di qualità, la dimensione totale sarebbe di circa 180 gigabtyes (ignorando le linee di controllo e i ritorni a capo). Varia ampiamente, ma chiamiamolo 200 gigabyte.
3. Come file di varianti, con solo la lista delle mutazioni: ~125 megabyte
Solo lo 0,1% circa del genoma è diverso tra gli individui, il che equivale a circa 3 milioni di varianti (alias mutazioni) nel genoma umano medio. Questo significa che possiamo fare un “file diff” dei soli luoghi in cui un dato individuo differisce dal normale genoma di “riferimento”. In pratica, questo è di solito fatto in un formato di file .VCF, che nel suo formato più semplice assomiglia a questo:
chr20 14370 rs6054257 G A 29 PASS 0|0
dove ogni linea usa ~45 byte, e si moltiplica questo per i ~3 milioni di varianti in un dato genoma, e si ottiene un file .VCF di circa 135.000.000 byte o ~125 megabyte.
Così lo avete. Alcuni dei molti modi di guardare alla dimensione di archiviazione del genoma. In pratica, #1 non si applica veramente, perché non si ottiene mai una stringa perfetta di un intero genoma umano. #3 è il più efficiente, ed è quello che la gente spesso si passa intorno e tratta per l’analisi e l’interpretazione a valle. Ma #2 è il modo in cui i genomi sono di solito conservati, perché il sequenziamento è ancora una scienza imperfetta, così come la chiamata delle varianti. Quindi avete davvero bisogno di conservare le letture grezze di sequenziamento e i dati di qualità associati, per il futuro ritocco dei parametri di analisi dei dati, se necessario.
Quello che significa è che faremmo meglio a prepararci per un grande diluvio di dati genomici. I dati del progetto 1000 genomi, per esempio, sono ora disponibili nel cloud AWS e consistono in >200 terabyte per i 1700 partecipanti. Poiché il costo del sequenziamento dell’intero genoma continua a scendere, si stanno svolgendo studi di sequenziamento sempre più grandi. Basta pensare ai requisiti di stoccaggio di questo progetto 10K Autism Genome, o il progetto 100k Genome del Regno Unito….. o anche… gasp… questo progetto Million Human Genomes. Le richieste computazionali sono sbalorditive, e la grande domanda è: può l’analisi dei dati tenere il passo, e cosa impareremo da questa marea di A, T, G e C….?
.