¿Qué tamaño tiene el genoma humano?

Me hacen esta pregunta a menudo. ¿Cómo de grande es nuestro código genético? Ya sabes… esa cosa del ADN… que consiste en miles de millones de letras… A’s, G’s, C’s, T’s… presentes en todos los TRILLONES de células del cuerpo humano… la cosa que te hace a ti. ¿Cuán grande es, en realidad?

Cada uno de nosotros tiene ~3.000 millones de pares de bases en nuestros genomas, pero ¿cuánto espacio de almacenamiento ocupa un genoma humano? La respuesta, por supuesto, es:

Depende.

Depende de lo que estemos hablando. ¿Nos referimos a esa única cadena de letras dentro de sus celdas? O a los datos brutos que salen de un secuenciador de genomas, que tienen que tener muchas «lecturas» en cada posición para que la cobertura sea adecuada, y tienen datos de calidad asociados? ¿O tal vez sólo estamos hablando de la lista de cada punto de su genoma en el que difiere del llamado genoma de referencia «normal»?

Aquí están algunas de las muchas maneras de desglosarlo:

1. En un mundo perfecto (sólo sus 3.000 millones de letras): ~700 megabytes

Si se tuviera una secuencia perfecta del genoma humano (sin fallos tecnológicos de los que preocuparse, y por lo tanto sin necesidad de incluir información sobre la calidad de los datos junto con la secuencia), entonces todo lo que se necesitaría es la cadena de letras (A, C, G y T) que componen una hebra del genoma humano, y la respuesta sería de unos 700 megabytes. Sería algo así:

AGCCCCTCAGGAGTCCGGACATGGAAACTCCTCATTCCAGGTCAGTCAGTCCTCACCTTGGCGTCGCGTCGGCCAAACTAACGTCGTCTAAATGACTTCTTAAAGGAATCGTGTCTCTCCTCCTCCTTCCAGCCTCGAAACTCAGGCTTCAGTGTGTCCTCCTCCTTCAGGCTTGTCCTTGTGTCACTGGCGCCTGCCTGCAATTAGTCCAACATTTAGGTGAGTCCAAACTTCAGTCTACTCCAAACATAG

Para hacer las cuentas, cada par de bases ocupa 2 bits (puedes usar 00, 01, 10 y 11 para T, G, C y A). Multiplique eso por el número de pares de bases en el genoma humano, y obtendrá 2 * 3 mil millones = 6.000.000.000 de bits. Y recuerda que hay que pasar de los bits a los bytes para llegar a una respuesta en megabytes. Un bit es una sola unidad de información digital, pero un byte es una secuencia de bits (normalmente 8). Y como los ordenadores trabajan en matemáticas binarias, 1 kilobyte = 1024 (es decir, 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigabyte = 1024 megabytes = 1048576 kilobytes = 1073741824 bytes. Así que toma los 5.800.000.000 de bits y los divide por 8 para obtener 750.000.000 bytes. Divídelo por 1024 y obtendrás 732.422 kilobytes. Divídelo por 1024 una vez más y te quedan 715 megabytes. Sí, podría caber en un CD-ROM, aunque ya nadie usa esas cosas.

2. En el mundo real, directamente del secuenciador del genoma: ~200 gigabytes

En realidad, para secuenciar un genoma humano completo, hay que generar un montón de «lecturas» cortas (~100 pares de bases, dependiendo de la plataforma) y luego «alinearlas» con el genoma de referencia. Esto también se conoce como cobertura. Por ejemplo, un genoma completo secuenciado con una cobertura de 30 veces significa que, de media, cada base del genoma fue cubierta por 30 lecturas de secuenciación. Los secuenciadores de nueva generación de Illumina, por ejemplo, pueden producir millones de lecturas cortas de 100 pb por hora, y éstas suelen almacenarse en FASTQ. Estos formatos de archivo no sólo almacenan la letra de cada posición de base, sino también mucha otra información, como la calidad. Este es el aspecto de un archivo FASTQ.

@SEQ_ID
GATTTGGGTTCAAAGCAGTATCGATCATAGTAAATCCATTTGTTCAACTCAGTTT
+
!»*((((***+))%%%++)(%%%%).1***-+*»))**55CCF>>>>>CCCCC65

Estos datos de calidad no son tan sencillos como los de ACGT, ya que se utilizan diversas letras y símbolos. Por eso, en este caso, consideramos cada letra un byte en lugar de un bit. Usando algunas matemáticas rápidas, sucias y demasiado simplificadas, los números se ven así: Suponiendo una longitud del genoma humano de 3.000 millones de letras y una profundidad de cobertura media de 30×, tendríamos 90.000 millones de letras, que ocuparían aproximadamente 90 gigabytes de espacio en disco, si asignamos un carácter a un byte. Teniendo en cuenta que un archivo FASTQ típico contiene tanto lecturas cortas como puntuaciones de calidad, el tamaño total sería de unos 180 gigabytes (sin tener en cuenta las líneas de control y los retornos de carro). Varía mucho, pero digamos que son 200 gigabytes.

3. Como archivo de variantes, con sólo la lista de mutaciones: ~125 megabytes

Sólo un 0,1% del genoma es diferente entre los individuos, lo que equivale a unos 3 millones de variantes (también conocidas como mutaciones) en el genoma humano medio. Esto significa que podemos hacer un «archivo diff» de sólo los lugares en los que cualquier individuo difiere del genoma normal de «referencia». En la práctica, esto se suele hacer en un formato de archivo .VCF, que en su formato más simple se ve algo así:

chr20 14370 rs6054257 G A 29 PASS 0|0

Donde cada línea utiliza ~45 bytes, y se multiplica esto por los ~3 millones de variantes en un genoma dado, y se obtiene un tamaño de archivo .VCF de unos 135.000.000 bytes o ~125 megabytes.

Así que ahí lo tienen. Algunas de las muchas formas de ver el tamaño de almacenamiento del genoma. En la práctica, #1 no se aplica realmente, porque nunca se obtiene una cadena perfecta de un genoma humano completo. La #3 es la más eficiente, y es la que la gente suele pasar y tratar para el análisis e interpretación posterior. Pero el #2 es la forma en que se suelen almacenar los genomas, porque la secuenciación sigue siendo una ciencia imperfecta, al igual que la llamada de variantes. Así que usted realmente necesita aferrarse a las lecturas de secuenciación en bruto y los datos de calidad asociados, para el futuro ajuste de los parámetros de análisis de datos si es necesario.

Lo que esto significa es que todos deberíamos prepararnos para una gran inundación de datos genómicos. Los datos del proyecto 1000 genomas, por ejemplo, ya están disponibles en la nube de AWS y constan de >200 terabytes para los 1700 participantes. A medida que el coste de la secuenciación del genoma completo sigue bajando, se están llevando a cabo estudios de secuenciación cada vez más grandes. Basta con pensar en los requisitos de almacenamiento de este proyecto del genoma del autismo de 10.000 personas, o el proyecto del genoma del Reino Unido de 100.000 personas ….. o incluso… este proyecto del millón de genomas humanos. Las exigencias informáticas son asombrosas, y la gran pregunta es: ¿podrá el análisis de datos seguir el ritmo, y qué aprenderemos de esta avalancha de A, T, G y C….?

Deja una respuesta

Tu dirección de correo electrónico no será publicada.