Jak duży jest ludzki genom?

Często zadają mi to pytanie. Jak duży jest nasz kod genetyczny? Wiesz… ten schemat DNA… składający się z miliardów liter… A, G, C, T… obecny we wszystkich TRYLIONACH komórek ludzkiego ciała… rzecz, która sprawia, że jesteś sobą. Jak duży jest naprawdę?

Każdy z nas ma ~3 miliardy par zasad w swoim genomie, ale ile miejsca zajmuje jeden ludzki genom? Odpowiedź, oczywiście, brzmi:

To zależy.

To zależy od tego, o czym mówimy. Czy odnosimy się do tego pojedynczego ciągu liter wewnątrz twoich komórek? Albo surowe dane, które pochodzą z sekwenatora genomu, który musi mieć wiele „odczytów” w każdej pozycji dla odpowiedniego pokrycia i ma dane jakościowe związane z nim? A może mówimy po prostu o liście każdego miejsca w twoim genomie, w którym różnisz się od tak zwanego „normalnego” genomu referencyjnego?

Oto tylko kilka z wielu sposobów, na jakie można to podzielić:

1. W idealnym świecie (tylko twoje 3 miliardy liter): ~700 megabajtów

Gdybyś miał idealną sekwencję ludzkiego genomu (bez wad technologicznych, o które należy się martwić, a zatem bez potrzeby dołączania informacji o jakości danych wraz z sekwencją), wtedy wszystko, czego byś potrzebował, to ciąg liter (A, C, G i T), które tworzą jedną nić ludzkiego genomu, a odpowiedź wynosiłaby około 700 megabajtów. Wyglądałoby to mniej więcej tak:

AGCCCCTCAGGAGTCCGCCACGATGGAAACTCCTCATTCCGAGTCAGTCAGTCATTTACCCTGGCTCACCTTGGCGCGCGCGGCAAACTAAGAACGTCGTCGTCTAAATGACTTTAAAGTAGAATAGCGTGTCTCTCCTCCTCCGAAAAACTCGGACCAAAGCAGCAGGCTTGTCCGTCCAGTAGTGATGACTCGCCTGCTGTACCAATTTAGTGAGTAGGATACTTACCCAAACATAGTGTAGTCAGTAGTAGGCTGATACTTACCCAAACATAG

.

Aby zrobić matematykę, każda para zasad zajmuje 2 bity (można użyć 00, 01, 10, i 11 dla T, G, C i A). Pomnóż to przez liczbę par zasad w ludzkim genomie, a otrzymasz 2 * 3 miliardy = 6 000 000 000 000 bitów. I pamiętaj, musisz przejść od bitów do bajtów, aby uzyskać odpowiedź w megabajtach. Bit to tylko pojedyncza jednostka informacji cyfrowej, ale bajt to sekwencja bitów (zazwyczaj 8). Ponieważ komputery pracują w systemie binarnym, 1 kilobajt = 1024 (tzn. 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabajt = 1024 megabajty = 1048576 kilobajtów = 1073741824 bajtów. Więc bierzesz 5,800,000,000 bitów i dzielisz przez 8, aby otrzymać 750,000,000 bajtów. Podziel to przez 1024 i otrzymasz 732 422 kilobajty. Podziel to jeszcze raz przez 1024 i zostanie ci 715 megabajtów. Tak, to by się całkiem zmieściło na CD-romie, ale nikt już tego nie używa.

2. W prawdziwym świecie, prosto z sekwenatora genomu: ~200 gigabajtów

W rzeczywistości, aby sekwencjonować cały ludzki genom, trzeba wygenerować garść krótkich „odczytów” (~100 par zasad, w zależności od platformy), a następnie „wyrównać” je do genomu referencyjnego. Znane jest to również jako pokrycie. Na przykład, cały genom sekwencjonowany przy 30-krotnym pokryciu oznacza, że średnio każda baza w genomie została pokryta przez 30 odczytów sekwencjonowania. Na przykład sekwencery następnej generacji firmy Illumina mogą wytwarzać miliony krótkich 100bp odczytów na godzinę, które są często zapisywane w formacie FASTQ. Te formaty plików przechowują nie tylko literę każdej pozycji bazy, ale także wiele innych informacji, takich jak jakość. Oto, jak wygląda plik FASTQ.

@SEQ_ID
GATTTGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCC65

Te dane jakościowe nie są tak proste jak ACGT, ponieważ używanych jest wiele różnych liter i symboli. Dlatego w tym przypadku każdą literę traktujemy jako bajt, a nie bit. Używając trochę szybkiej & brudnej, zbyt uproszczonej matematyki, liczby wyglądają tak: Zakładając długość ludzkiego genomu wynoszącą 3 miliardy liter i średnią głębokość pokrycia 30×, mielibyśmy 90 miliardów liter, z grubsza zajmujących 90 gigabajtów przestrzeni dyskowej, jeśli zmapujemy jeden znak na jeden bajt. Biorąc pod uwagę, że typowy plik FASTQ zawiera zarówno krótkie odczyty, jak i wyniki jakościowe, całkowity rozmiar wyniósłby około 180 gigabajtów (ignorując linie kontrolne i zwroty karetki). Waha się on w szerokim zakresie, ale nazwijmy go 200 gigabajtami.

3. Jako plik wariantu, tylko z listą mutacji: ~125 megabajtów

Tylko około 0,1% genomu różni się między osobnikami, co równa się około 3 milionom wariantów (aka mutacji) w przeciętnym ludzkim genomie. Oznacza to, że możemy stworzyć „plik diff” zawierający tylko miejsca, w których dany osobnik różni się od normalnego „referencyjnego” genomu. W praktyce zwykle robi się to w formacie pliku .VCF, który w najprostszym formacie wygląda mniej więcej tak:

chr20 14370 rs6054257 G A 29 PASS 0|0

Gdzie każda linia używa ~45 bajtów, i pomnożymy to przez ~3 miliony wariantów w danym genomie, i otrzymamy plik .VCF o rozmiarze około 135 000 000 bajtów lub ~125 megabajtów.

Więc mamy to. Kilka z wielu sposobów patrzenia na rozmiar przechowywania genomu. Praktycznie rzecz biorąc, #1 tak naprawdę nie ma zastosowania, ponieważ nigdy nie dostaniesz idealnego ciągu całego ludzkiego genomu. #3 jest najbardziej wydajny i jest tym, co ludzie często przekazują i z czym mają do czynienia przy późniejszej analizie i interprecji. Ale # 2 to sposób, w jaki genomy są zwykle przechowywane, ponieważ sekwencjonowanie jest wciąż niedoskonałą nauką, podobnie jak wywoływanie wariantów. Więc naprawdę musisz trzymać się surowych odczytów sekwencjonowania i związanych z nimi danych jakościowych, aby w przyszłości dostosować parametry analizy danych w razie potrzeby.

Co to oznacza, że wszyscy lepiej przygotujemy się na poważny zalew danych genomowych. Dane projektu 1000 genomów, na przykład, są obecnie dostępne w chmurze AWS i składają się z >200 terabajtów dla 1700 uczestników. Ponieważ koszt sekwencjonowania całych genomów nadal spada, coraz większe badania sekwencjonowania są rozwijane. Wystarczy pomyśleć o wymaganiach pamięci masowej projektu 10 tys. genomów autyzmu, czy brytyjskiego projektu 100 tys. genomów….., a nawet… tego projektu miliona genomów ludzkich. Wymagania obliczeniowe są oszałamiające, a wielkie pytanie brzmi: Czy analiza danych nadąży i czego dowiemy się z tej powodzi A, T, G i C….?

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.