Quão grande é o genoma humano?
Perguntem-me esta pergunta muitas vezes. Qual é o tamanho do nosso código genético? Sabes… aquela coisa da planta do ADN… que consiste em biliões de letras… A’s, G’s, C’s, T’s… presentes em todos os TRILHÕES de células do corpo humano… a coisa que te torna. Quão grande é, realmente?
Nós cada um temos ~3 bilhões de pares de base em nossos genomas, mas quanto espaço de armazenamento um genoma humano ocupa? A resposta, claro, é:
Depende.
Depende do que estamos a falar. Estamos nos referindo a essa única seqüência de letras dentro de suas células? Ou os dados brutos que saem de um sequenciador de genoma, que tem que ter muitas “leituras” em cada posição para uma cobertura adequada, e tem dados de qualidade associados a ele? Ou talvez estejamos apenas falando da lista de cada ponto do seu genoma onde você difere do chamado genoma de referência “normal”?
Aqui estão apenas algumas das muitas maneiras de quebrá-lo:
1. Em um mundo perfeito (apenas suas 3 bilhões de letras): ~700 megabytes
Se você tivesse uma seqüência perfeita do genoma humano (sem falhas tecnológicas para se preocupar, e portanto não precisaria incluir informações sobre a qualidade dos dados junto com a seqüência), então tudo que você precisaria seria a seqüência de letras (A, C, G e T) que compõem uma seqüência do genoma humano, e a resposta seria cerca de 700 megabytes. Seria algo parecido com isto:
Para fazer as contas, cada par base leva 2 bits (você pode usar 00, 01, 10 e 11 para T, G, C e A). Multiplique isso pelo número de pares de bases no genoma humano, e você recebe 2 * 3 bilhões = 6.000.000.000.000 de bits. E lembre-se, você tem que ir de bits para bytes para chegar a uma resposta em megabytes. Um bit é apenas uma única unidade de informação digital, mas um byte é uma sequência de bits (normalmente 8). E como os computadores funcionam em matemática binária, 1 kilobyte = 1024 (ou seja, 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabyte = 1024 megabytes = 1048576 kilobytes = 1073741824 bytes. Então você pega os 5.800.000.000 de bits e divide por 8 para obter 750.000.000 de bytes. Divida isso por 1024 e você recebe 732.422 kilobytes. Divide por 1024 mais uma vez e ficas com 715 megabytes. Sim, poderia caber muito em um CD-rom, não que alguém use mais essas coisas.
2. No mundo real, direto do seqüenciador do genoma: ~200 gigabytes
Na realidade, para sequenciar um genoma humano inteiro, você precisa gerar um monte de “leituras” curtas (~100 pares de bases, dependendo da plataforma) e depois “alinhá-las” com o genoma de referência. Isto também é conhecido como cobertura. Por exemplo, um genoma inteiro sequenciado a 30x de cobertura significa que, em média, cada base no genoma foi coberta por 30 leituras sequenciais. Os sequenciadores de próxima geração do Illumina, por exemplo, podem produzir milhões de leituras curtas de 100bp por hora, e estas são frequentemente armazenadas em FASTQ. Estes formatos de arquivo armazenam não só a letra de cada posição base, mas também muitas outras informações, como qualidade. Eis como é um arquivo FASTQ.
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAAGTAAATCCATTTGTTTCAACTCACAGTTTT
+
!”*((((****+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65
Estes dados de qualidade não são tão simples como o ACGT, porque há uma variedade de letras e símbolos diferentes usados. Portanto, neste caso, estamos a considerar cada letra como um byte em vez de um pouco. Usando um pouco de & matemática suja e super simplificada, os números são parecidos com isto: Assumindo um genoma humano de 3 bilhões de letras e uma profundidade média de cobertura de 30×, teríamos 90 bilhões de letras, ocupando aproximadamente 90 gigabytes de espaço em disco, se mapearmos um caractere para um byte. Considerando que um arquivo FASTQ típico contém tanto as letras curtas quanto as notas de qualidade, o tamanho total seria de cerca de 180 gigabytes (ignorando linhas de controle e retornos de carruagem). Ele varia muito, mas vamos chamá-lo de 200 gigabytes.
3. Como um arquivo variante, com apenas a lista de mutações: ~125 megabytes
Apenas cerca de 0,1% do genoma é diferente entre indivíduos, o que equivale a cerca de 3 milhões de variantes (vulgo mutações) no genoma humano médio. Isto significa que podemos fazer um “arquivo diff” apenas dos lugares onde qualquer indivíduo difere do genoma “de referência” normal. Na prática, isto é normalmente feito em um formato de arquivo .VCF, que em seu formato mais simples se parece algo assim:
chr20 14370 rs6054257 G A 29 PASS 0|0
Onde cada linha usa ~45 bytes, e você vezes isto pelos ~3 milhões de variantes em um determinado genoma, e você obtém um arquivo .VCF de cerca de 135.000.000 bytes ou ~125 megabytes.
Então aí você o tem. Algumas das muitas maneiras de ver o tamanho de armazenamento do genoma. Praticamente falando, #1 realmente não se aplica, porque você nunca obtém uma seqüência perfeita de um genoma humano inteiro. O #3 é o mais eficiente, e é com ele que as pessoas muitas vezes passam e lidam para a análise e interpretação a jusante. Mas o #2 é como os genomas são normalmente armazenados, porque o sequenciamento ainda é uma ciência imperfeita, como é chamada a variante. Então você realmente precisa se agarrar às leituras de seqüenciamento bruto e dados de qualidade associados, para ajustes futuros dos parâmetros de análise de dados, se necessário.
O que isto significa é que é melhor nos prepararmos para uma grande inundação de dados genômicos. Os dados do projecto de 1000 genomas, por exemplo, estão agora disponíveis na nuvem AWS e consistem em >200 terabytes para os 1700 participantes. Como o custo do sequenciamento do genoma inteiro continua a cair, estudos de sequenciamento cada vez maiores estão sendo implementados. Basta pensar nos requisitos de armazenamento deste projeto de 10K Genoma Autismo, ou no projeto 100k Genoma do Reino Unido….. ou até mesmo… gasp… este projeto Milhão de Genomas Humanos. As exigências computacionais são espantosas, e a grande questão é: Será que a análise de dados pode acompanhar, e o que vamos aprender com esta inundação de A’s, T’s, G’s e C’s….?