Jak velký je lidský genom?

Na tuto otázku se mě ptají často. Jak velký je náš genetický kód? Víte… ten plán DNA… skládající se z miliard písmen… A, G, C, T… přítomný ve všech TRILIONECH buněk v lidském těle… to, co vás dělá vámi. Jak je vlastně velký?

Každý z nás má ve svém genomu ~3 miliardy párů bází, ale kolik úložného prostoru zabírá jeden lidský genom? Odpověď samozřejmě zní:

Záleží na tom.

Záleží na tom, o čem mluvíme. Máme na mysli ten jediný řetězec písmen uvnitř buněk? Nebo o nezpracovaná data, která vycházejí ze sekvenátoru genomu, který musí mít na každé pozici mnoho „čtení“ pro dostatečné pokrytí a jsou s ním spojena data o kvalitě? Nebo snad mluvíme jen o seznamu všech míst ve vašem genomu, kde se lišíte od takzvaného „normálního“ referenčního genomu?

Tady je jen několik z mnoha způsobů, jak to rozdělit:

1. Jaký je váš genom? V dokonalém světě (jen vaše 3 miliardy písmen): ~700 megabajtů

Pokud byste měli dokonalou sekvenci lidského genomu (bez technologických chyb, kterých byste se museli obávat, a tudíž by nebylo nutné spolu se sekvencí uvádět informace o kvalitě dat), pak by vám stačil řetězec písmen (A, C, G a T), který tvoří jedno vlákno lidského genomu, a odpověď by byla asi 700 megabajtů. Vypadalo by to asi takto:

Provedeme výpočet, každý pár bází zabírá 2 bity (pro T, G, C a A můžete použít 00, 01, 10 a 11). Vynásobte to počtem párů bází v lidském genomu a dostanete 2 * 3 miliardy = 6 000 000 000 bitů. A nezapomeňte, že musíte přejít z bitů na bajty, abyste se dostali k odpovědi v megabajtech. Bit je jen jedna jednotka digitální informace, ale bajt je posloupnost bitů (obvykle 8). A protože počítače pracují ve dvojkové matematice, 1 kilobajt = 1024 (tj. 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabajt = 1024 megabajtů = 1048576 kilobajtů = 1073741824 bajtů. Vezměte tedy 5 800 000 000 bitů a vydělte je 8, čímž získáte 750 000 000 bajtů. Když to vydělíte 1024, dostanete 732 422 kilobajtů. Vydělte to ještě jednou číslem 1024 a získáte 715 megabajtů. Jo, to by se docela dobře vešlo na CD-ROM, ne že by tyhle věci ještě někdo používal.

2. V reálném světě, přímo ze sekvenátoru genomu: ~200 gigabajtů

V realitě, abyste mohli sekvenovat celý lidský genom, musíte vygenerovat spoustu krátkých „čtení“ (~100 párů bází, v závislosti na platformě) a pak je „zarovnat“ na referenční genom. Tomu se také říká pokrytí. Například celý genom sekvenovaný s 30násobným pokrytím znamená, že každá báze v genomu byla v průměru pokryta 30 sekvenačními čteními. Například sekvenátory nové generace společnosti Illumina mohou produkovat miliony krátkých 100bp čtení za hodinu a ta jsou často uložena ve formátu FASTQ. Tyto formáty souborů ukládají nejen písmeno každé pozice báze, ale také mnoho dalších informací, například o kvalitě. Takto vypadá soubor FASTQ.

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!“*((((***+))%%%++)(%%%%).1***-+*“))**55CCF>>>>>>CCCCCCC65

Tyto údaje o kvalitě nejsou tak jednoduché jako ACGT, protože se používá řada různých písmen a symbolů. V tomto případě tedy považujeme každé písmeno spíše za bajt než za bit. Při použití rychlé & špinavé, příliš zjednodušené matematiky vypadají čísla takto: Předpokládáme-li délku lidského genomu 3 miliardy písmen a průměrnou hloubku pokrytí 30×, měli bychom 90 miliard písmen, která by zabírala zhruba 90 gigabajtů diskového prostoru, pokud bychom jeden znak mapovali na jeden bajt. Vezmeme-li v úvahu, že typický soubor FASTQ obsahuje jak krátká čtení, tak skóre kvality, celková velikost by byla přibližně 180 gigabajtů (bez kontrolních řádků a návratů vozíku). Velmi se liší, ale řekněme, že je to 200 gigabajtů.

3. Jako variantní soubor, pouze se seznamem mutací: ~Pouze asi 0,1 % genomu se mezi jednotlivci liší, což odpovídá asi 3 milionům variant (alias mutací) v průměrném lidském genomu. To znamená, že můžeme vytvořit „rozdílový soubor“ pouze s místy, kde se daný jedinec liší od běžného „referenčního“ genomu. V praxi se to obvykle provádí ve formátu souboru .VCF, který v nejjednodušším formátu vypadá asi takto:

chr20 14370 rs6054257 G A 29 PASS 0|0

Kde každý řádek zabere ~45 bajtů a vynásobíte to ~3 miliony variant v daném genomu a dostanete soubor .VCF o velikosti asi 135 000 000 bajtů neboli ~125 megabajtů.

Tak to máte. Několik z mnoha způsobů pohledu na velikost úložiště genomu. Prakticky řečeno, číslo 1 se příliš neuplatní, protože nikdy nezískáte dokonalý řetězec celého lidského genomu. #Číslo 3 je nejefektivnější a lidé si ho často předávají a zabývají se jím při následné analýze a interpretaci. Ale #2 je způsob, jakým se genomy obvykle ukládají, protože sekvenování je stále nedokonalá věda, stejně jako volání variant. Takže je skutečně třeba si ponechat surová sekvenační čtení a související údaje o kvalitě, aby bylo možné v budoucnu v případě potřeby upravit parametry analýzy dat.

To znamená, že bychom se všichni měli připravit na velkou záplavu genomických dat. Například data projektu 1000 genomů jsou nyní k dispozici v cloudu AWS a tvoří >200 terabajtů pro 1700 účastníků. Vzhledem k tomu, že náklady na sekvenování celých genomů stále klesají, zavádějí se stále větší a větší sekvenační studie. Jen si vzpomeňte na požadavky na úložiště tohoto projektu 10 tisíc genomů autismu nebo britského projektu 100 tisíc genomů….. nebo dokonce… údiv… tohoto projektu Milion lidských genomů. Výpočetní nároky jsou ohromující a velkou otázkou je: dokáže analýza dat udržet krok a co se z této záplavy písmen A, T, G a C dozvíme….?

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.