Cât de mare este genomul uman?
Mi se pune des această întrebare. Cât de mare este codul nostru genetic? Știți… chestia aia cu schița de ADN… formată din miliarde de litere… A, G, C, T… prezentă în toate cele TRILIOANE de celule din corpul uman… chestia care te face să fii tu. Cât de mare este, de fapt?
Fiecare dintre noi are ~3 miliarde de perechi de baze în genomul nostru, dar cât spațiu de stocare ocupă un genom uman? Răspunsul, bineînțeles, este:
Depinde.
Depinde despre ce vorbim. Ne referim la acel singur șir de litere din interiorul celulelor voastre? Sau la datele brute care provin de la un secvențiator de genom, care trebuie să aibă multe „lecturi” la fiecare poziție pentru o acoperire adecvată și care are asociate date de calitate? Sau poate că ne referim doar la lista fiecărui punct din genomul tău în care te deosebești de așa-numitul genom de referință „normal”?
Iată doar câteva dintre multele moduri de a o descompune:
1. Într-o lume perfectă (doar cele 3 miliarde de litere ale dvs.): ~700 de megaocteți
Dacă ați avea o secvență perfectă a genomului uman (fără defecte tehnologice de care să vă faceți griji și, prin urmare, fără a fi nevoie să includeți informații despre calitatea datelor împreună cu secvența), atunci tot ceea ce ați avea nevoie este șirul de litere (A, C, G și T) care alcătuiesc un fir al genomului uman, iar răspunsul ar fi de aproximativ 700 de megaocteți. Ar arăta cam așa:
AGCCCCTCAGGAGAGTCCGGCCACATGGAAACTCCTCTCTCATTCCGGAGGTCAGTCAGTCAGATTTACCCTGGCCTCCTCCTCGTCGCGTCCGGCGGCGGCAAACTAAGAACACACGTCGTCGTCTAAATGACTTCTTCTTAAAGTAGAATAGCGTGTTCTCTCTCCTCCTTCCTCCAGCCTCCTCGAAAAACTCGGCGGACCAAAGATCAGCAGGTGTCGTCCGTAGTGGATGAGACTGCCCTCTGTTCGCGTACTACAACCAATTTAGGTGAGTCAGTCAGTCGGTCCAGCTGGAGCTGATAATCTAATCTACTTACCCAAACATAG
Pentru a face calculele, fiecare pereche de baze are nevoie de 2 biți (puteți folosi 00, 01, 10 și 11 pentru T, G, C și A). Înmulțiți acest număr cu numărul de perechi de baze din genomul uman și veți obține 2 * 3 miliarde = 6.000.000.000.000 de biți. Și nu uitați, trebuie să treceți de la biți la octeți pentru a ajunge la un răspuns în megabyte. Un bit este doar o singură unitate de informație digitală, dar un octet este o secvență de biți (de obicei 8). Și deoarece computerele lucrează în matematică binară, 1 kilooctet = 1024 (adică 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabyte = 1024 megabytes = 1048576 kilobytes = 1073741824 bytes. Așadar, se iau cei 5.800.000.000 de biți și se împart la 8 pentru a obține 750.000.000 de octeți. Îl împărțiți la 1024 și obțineți 732.422 kilobiți. Mai împărțiți încă o dată la 1024 și veți obține 715 megabytes. Da, ar putea încăpea destul de bine pe un CD-rom, nu că cineva ar mai folosi chestiile alea.
2. În lumea reală, direct de pe secvențiatorul de genom: ~200 gigabytes
În realitate, pentru a secvenția un întreg genom uman, trebuie să generați o grămadă de „lecturi” scurte (~100 de perechi de baze, în funcție de platformă) și apoi să le „aliniați” la genomul de referință. Acest lucru este, de asemenea, cunoscut sub numele de acoperire. De exemplu, un genom întreg secvențiat cu o acoperire de 30x înseamnă că, în medie, fiecare bază din genom a fost acoperită de 30 de citiri de secvențiere. Secvențiatoarele de generație următoare de la Illumina, de exemplu, pot produce milioane de citiri scurte de 100 pb pe oră, iar acestea sunt adesea stocate în FASTQ. Aceste formate de fișiere stochează nu numai litera fiecărei poziții de bază, ci și o mulțime de alte informații, cum ar fi calitatea. Iată cum arată un fișier FASTQ.
@SEQ_ID
GATTTGGGGGGTTCAAAGCAGCATAGTATCGATCAAATAGTAAATCCATTTGTTTTCAACTCACACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>>CCCCCCCCC65
Aceste date de calitate nu sunt la fel de simple ca ACGT, deoarece există o varietate de litere și simboluri diferite folosite. Deci, în acest caz, considerăm fiecare literă un octet, mai degrabă decât un bit. Folosind niște calcule matematice rapide & murdare și prea simplificate, cifrele arată astfel: Presupunând o lungime a genomului uman de 3 miliarde de litere și o profunzime medie de acoperire de 30×, am avea 90 de miliarde de litere, ocupând aproximativ 90 de gigaocteți de spațiu pe disc, dacă cartografiem un caracter la un octet. Având în vedere că un fișier FASTQ tipic conține atât citiri scurte, cât și scoruri de calitate, dimensiunea totală ar fi de aproximativ 180 de gigaocteți (fără a lua în considerare liniile de control și întoarcerile de cărămidă). Aceasta variază foarte mult, dar să o numim 200 de gigaocteți.
3. Ca fișier de variante, cu doar lista de mutații: ~125 megabytes
Doar aproximativ 0,1% din genom este diferit între indivizi, ceea ce echivalează cu aproximativ 3 milioane de variante (aka mutații) în genomul uman mediu. Acest lucru înseamnă că putem face un „fișier diff” doar cu locurile în care un anumit individ diferă de genomul „de referință” normal. În practică, acest lucru se face, de obicei, într-un format de fișier .VCF, care, în cel mai simplu format, arată cam așa:
chr20 14370 rs6054257 G A 29 PASS 0|0
În care fiecare linie folosește ~45 de octeți, iar dacă înmulțițiți acest lucru cu cele ~3 milioane de variante dintr-un anumit genom, obțineți un fișier .VCF cu o dimensiune de aproximativ 135.000.000 de octeți sau ~125 de megaocteți.
Deci, iată-l. Câteva dintre multele moduri de a privi dimensiunea de stocare a genomului. Din punct de vedere practic, nr. 1 nu se aplică cu adevărat, deoarece nu veți obține niciodată un șir perfect al unui întreg genom uman. #3 este cel mai eficient și este cel pe care oamenii îl pasează adesea și cu care se ocupă pentru analiza și interpretarea din aval. Dar #2 este modul în care sunt stocate de obicei genomurile, deoarece secvențierea este încă o știință imperfectă, la fel ca și apelarea variantelor. Așadar, trebuie într-adevăr să vă agățați de citirile de secvențiere brute și de datele de calitate asociate, pentru reglarea ulterioară a parametrilor de analiză a datelor, dacă este necesar.
Ceea ce înseamnă că ar fi bine să ne pregătim cu toții pentru o inundație majoră de date genomice. Datele proiectului 1000 genomuri, de exemplu, sunt acum disponibile în cloud-ul AWS și constau în >200 terabytes pentru cei 1700 de participanți. Pe măsură ce costul secvențierii întregului genom continuă să scadă, se derulează studii de secvențiere din ce în ce mai mari. Gândiți-vă doar la cerințele de stocare ale acestui proiect 10K Autism Genome, sau ale proiectului 100k Genome din Marea Britanie….. sau chiar… gasp… acest proiect Million Human Genomes. Cerințele de calcul sunt uluitoare, iar marea întrebare este: poate analiza datelor să țină pasul și ce vom învăța din această avalanșă de A-uri, T-uri, G-uri și C-uri….?
.