Minkä kokoinen on ihmisen genomi?

Minulta kysytään tätä usein. Kuinka suuri on geneettinen koodimme? Tiedättehän… se DNA-luonnosjuttu… joka koostuu miljardeista kirjaimista… A:t, G:t, C:t, T:t… joka on läsnä kaikissa ihmiskehon TRILLJOONISSA soluissa… se, joka tekee meistä sinut. Kuinka suuri se oikeasti on?

Meillä jokaisella on ~3 miljardia emäsparia genomissamme, mutta kuinka paljon tallennustilaa yksi ihmisen genomi vie? Vastaus on tietenkin:

Se riippuu.

Se riippuu siitä, mistä puhumme. Tarkoitammeko sitä yksittäistä kirjainjonoa solujenne sisällä? Vai sitä raakadataa, joka tulee genomin sekvenssilaitteesta, jossa on oltava monta ”lukua” jokaisessa paikassa riittävän kattavuuden saavuttamiseksi, ja johon liittyy laatutietoja? Vai puhummeko kenties vain luettelosta jokaisesta kohdasta genomissasi, jossa poikkeat niin sanotusta ”normaalista” referenssigenomista?

Tässä on vain muutama monista tavoista jaotella se:

1. Täydellisessä maailmassa (vain sinun 3 miljardia kirjainta): ~700 megatavua

Jos sinulla olisi täydellinen ihmisen genomin sekvenssi (jossa ei olisi mitään teknologisia puutteita, joista pitäisi huolehtia, eikä siksi tarvitsisi sisällyttää sekvenssin mukana tietoja datan laadusta), tarvitsisit vain kirjainjonon (A, C, G ja T), joka muodostaa ihmisen genomin yhden säikeen, ja vastaus olisi noin 700 megatavua. Se näyttäisi jotakuinkin tältä:

Laskennan suorittamiseksi, jokainen emäspari vie 2 bittiä (voit käyttää 00, 01, 10 ja 11 T:lle, G:lle, C:lle ja A:lle). Kun tämä kerrotaan ihmisen genomissa olevien emäsparien määrällä, saadaan 2 * 3 miljardia = 6 000 000 000 bittiä. Muista, että biteistä on siirryttävä tavuihin, jotta saat vastauksen megatavuina. Bitti on vain yksi digitaalisen tiedon yksikkö, mutta tavu on sarja bittejä (yleensä 8). Ja koska tietokoneet toimivat binäärimatematiikalla, 1 kilotavu = 1024 (eli 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigatavu = 1024 megatavua = 1048576 kilotavua = 1073741824 tavua. Otetaan siis 5 800 000 000 bittiä ja jaetaan se 8:lla, jolloin saadaan 750 000 000 tavua. Jaa se 1024:llä, niin saat 732 422 kilotavua. Jaa se vielä kerran 1024:llä, niin jäljelle jää 715 megatavua. Jep, se mahtuisi melko hyvin CD-romille, ei sillä, että kukaan enää käyttäisi niitä.

2. Todellisessa maailmassa, suoraan genomin sekvensointilaitteesta: ~200 gigatavua

Todellisuudessa koko ihmisen genomin sekvensoimiseksi on luotava joukko lyhyitä ”lukuja” (~100 emäsparia, alustasta riippuen) ja sitten ”kohdistettava” ne referenssigenomiin. Tätä kutsutaan myös kattavuudeksi. Esimerkiksi koko genomi, joka on sekvensoitu 30-kertaisella kattavuudella, tarkoittaa, että keskimäärin 30 sekvensointilukua kattaa jokaisen genomin emäksen. Esimerkiksi Illuminan seuraavan sukupolven sekvensointilaitteet voivat tuottaa miljoonia lyhyitä 100bp:n lukuja tunnissa, ja nämä lukemat tallennetaan usein FASTQ-muodossa. Nämä tiedostomuodot tallentavat kunkin emäspaikan kirjaimen lisäksi myös paljon muuta tietoa, kuten laadun. Seuraavalta näyttää FASTQ-tiedosto.

@SEQ_ID
GATTTGGGGTTCTCAAAGCAGTATCGATCAAATCAAATAGTAAATCCATTTGTTCAACTCACACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>>>>>CCCCCCCCC65

Tämä laatutieto ei ole niin yksinkertaista kuin ACGT, koska siinä käytetään useita eri kirjaimia ja symboleja. Niinpä tässä tapauksessa pidämme jokaista kirjainta tavuna eikä bittinä. Käyttämällä nopeaa & likaista, liian yksinkertaistettua matematiikkaa luvut näyttävät tältä: Jos oletetaan, että ihmisen genomin pituus on 3 miljardia kirjainta ja keskimääräinen kattavuussyvyys on 30×, meillä olisi 90 miljardia kirjainta, jotka vievät karkeasti ottaen 90 gigatavua levytilaa, jos kuvaamme yhden merkin yhdeksi tavuksi. Kun otetaan huomioon, että tyypillinen FASTQ-tiedosto sisältää sekä lyhyitä lukukertoja että laatupisteitä, kokonaiskoko olisi noin 180 gigatavua (ilman ohjausviivoja ja rivinvaihtoja). Se vaihtelee suuresti, mutta sanotaan, että se on 200 gigatavua.

3. Varianttitiedostona, jossa on vain mutaatioluettelo: ~125 megatavua

Vain noin 0,1 % genomista on erilainen eri yksilöiden välillä, mikä vastaa noin 3 miljoonaa varianttia (eli mutaatiota) keskimääräisessä ihmisen genomissa. Tämä tarkoittaa, että voimme tehdä ”diff-tiedoston” vain niistä kohdista, joissa jokin yksilö eroaa normaalista ”viite ”genomista. Käytännössä tämä tehdään yleensä .VCF-tiedostomuodossa, joka yksinkertaisimmillaan näyttää jotakuinkin seuraavalta:

chr20 14370 rs6054257 G A 29 PASS 0|0

Jossa jokainen rivi käyttää ~45 tavua, ja kun tämä kerrotaan tietyn genomin ~3 miljoonalla variaatiolla, saadaan .VCF-tiedoston kooksi n. 135 000 000 tavua eli ~125 megatavua.

Tässä se on. Muutama monista tavoista tarkastella genomin tallennuskokoa. Käytännössä #1 ei oikeastaan päde, koska et koskaan saa täydellistä merkkijonoa koko ihmisen genomista. #Numero 3 on tehokkain, ja se on se, mitä ihmiset usein kierrättävät ja käsittelevät jatkoanalyysejä ja tulkintaa varten. Mutta #2 on se, miten genomit yleensä tallennetaan, koska sekvensointi on edelleen epätäydellinen tiede, samoin kuin varianttien määrittäminen. Niinpä on todella säilytettävä raa’at sekvensointilukemat ja niihin liittyvät laatutiedot, jotta datan analyysiparametreja voidaan tarvittaessa säätää tulevaisuudessa.

Tämä tarkoittaa sitä, että meidän kaikkien on parasta varautua suureen genomitietotulvaan. Esimerkiksi 1000 genomia -hankkeen data on nyt saatavilla AWS-pilvipalvelussa, ja se koostuu >200 teratavusta 1700 osallistujan osalta. Kun koko genomin sekvensoinnin kustannukset laskevat edelleen, yhä suurempia sekvensointitutkimuksia otetaan käyttöön. Ajatelkaapa vain tämän 10K Autism Genome -hankkeen tai Ison-Britannian 100k Genome -hankkeen….. tai jopa… hups… tämän Million Human Genomes -hankkeen tallennusvaatimuksia. Laskennalliset vaatimukset ovat huikeat, ja suuri kysymys on: pysyykö data-analyysi perässä ja mitä opimme tästä A:n, T:n, G:n ja C:n tulvasta….?

.

Vastaa

Sähköpostiosoitettasi ei julkaista.