De quelle taille est le génome humain ?
On me pose souvent cette question. Quelle est la taille de notre code génétique ? Vous savez… cette histoire d’empreinte génétique… constituée de milliards de lettres… des A, des G, des C, des T… présente dans toutes les TRILLIONS de cellules du corps humain… ce qui fait que vous êtes vous. Quelle est sa taille, en réalité ?
Nous avons chacun ~3 milliards de paires de bases dans nos génomes, mais combien d’espace de stockage occupe un génome humain ? La réponse, bien sûr, est :
Cela dépend.
Cela dépend de ce dont nous parlons. Faisons-nous référence à cette unique chaîne de lettres à l’intérieur de vos cellules ? Ou aux données brutes qui sortent d’un séquenceur de génome, qui doit avoir de nombreuses « lectures » à chaque position pour une couverture adéquate, et auxquelles sont associées des données de qualité ? Ou peut-être parlons-nous simplement de la liste de tous les endroits de votre génome où vous différez du génome de référence dit « normal » ?
Voici quelques-unes des nombreuses façons de le décomposer :
1. Dans un monde parfait (juste vos 3 milliards de lettres) : ~700 mégaoctets
Si vous aviez une séquence parfaite du génome humain (sans aucun défaut technologique à craindre, et donc pas besoin d’inclure des informations sur la qualité des données avec la séquence), alors tout ce dont vous auriez besoin est la chaîne de lettres (A, C, G et T) qui constitue un brin du génome humain, et la réponse serait environ 700 mégaoctets. Cela ressemblerait à quelque chose comme ceci :
AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCCTTCCAGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTTCGCTAGTGATGAGACTGCGCCTCTGGTTCACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGGCTGATAATCTACTTACCCAAACATAG
.
Pour faire le calcul, chaque paire de base prend 2 bits (vous pouvez utiliser 00, 01, 10 et 11 pour T, G, C et A). Multipliez cela par le nombre de paires de bases dans le génome humain, et vous obtenez 2 * 3 milliards = 6 000 000 000 de bits. Et n’oubliez pas que vous devez passer des bits aux octets pour obtenir une réponse en mégaoctets. Un bit n’est qu’une seule unité d’information numérique, mais un octet est une séquence de bits (généralement 8). Et comme les ordinateurs fonctionnent en mathématique binaire, 1 kilooctet = 1024 (c’est-à-dire 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1024). 1 gigaoctet = 1024 mégaoctets = 1048576 kilooctets = 1073741824 octets. Vous prenez donc les 5 800 000 000 de bits et les divisez par 8 pour obtenir 750 000 000 d’octets. Divisez ce chiffre par 1024 et vous obtenez 732 422 kilo-octets. Divisez-le encore une fois par 1024 et il vous reste 715 mégaoctets. Yup, il pourrait à peu près tenir sur un CD-rom, non pas que quelqu’un utilise encore ces choses.
2. Dans le monde réel, directement à partir du séquenceur de génome : ~200 gigaoctets
En réalité, afin de séquencer un génome humain entier, vous devez générer un tas de courtes « lectures » (~100 paires de base, selon la plate-forme), puis les « aligner » sur le génome de référence. C’est ce qu’on appelle également la couverture. Par exemple, un génome entier séquencé avec une couverture de 30x signifie que, en moyenne, chaque base du génome a été couverte par 30 lectures de séquençage. Les séquenceurs de nouvelle génération d’Illumina, par exemple, peuvent produire des millions de lectures courtes de 100 pb par heure, et celles-ci sont souvent stockées en FASTQ. Ces formats de fichier stockent non seulement la lettre de chaque position de base, mais aussi beaucoup d’autres informations telles que la qualité. Voici à quoi ressemble un fichier FASTQ.
@SEQ_ID
GATTTGGGGCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
! »*((((***+))%%%++)(%%%%).1***-+* »))**55CCF>>>>>>CCCCCCC65
Ces données de qualité ne sont pas aussi simples que ACGT, car il y a une variété de lettres et de symboles différents utilisés. Donc, dans ce cas, nous considérons chaque lettre comme un octet plutôt que comme un bit. En utilisant un rapide & calcul sale et simplifié à l’extrême, les chiffres ressemblent à ceci : En supposant une longueur de génome humain de 3 milliards de lettres et une profondeur de couverture moyenne de 30×, nous aurions 90 milliards de lettres, occupant grossièrement 90 gigaoctets d’espace disque, si nous faisons correspondre un caractère à un octet. Si l’on considère qu’un fichier FASTQ typique contient à la fois des lectures courtes et des scores de qualité, la taille totale serait d’environ 180 gigaoctets (en ignorant les lignes de contrôle et les retours chariot). Cela varie largement, mais appelons cela 200 gigaoctets.
3. En tant que fichier de variantes, avec juste la liste des mutations : ~125 mégaoctets
Seulement environ 0,1% du génome est différent entre les individus, ce qui équivaut à environ 3 millions de variants (aka mutations) dans le génome humain moyen. Cela signifie que nous pouvons faire un « fichier diff » des seuls endroits où un individu donné diffère du génome normal « de référence ». Dans la pratique, cela se fait généralement dans un format de fichier .VCF, qui, dans son format le plus simple, ressemble à ceci :
chr20 14370 rs6054257 G A 29 PASS 0|0
Où chaque ligne utilise ~45 octets, et vous multipliez cela par les ~3 millions de variantes dans un génome donné, et vous obtenez une taille de fichier .VCF d’environ 135 000 000 octets ou ~125 mégaoctets.
Voilà. Quelques-unes des nombreuses façons de considérer la taille de stockage du génome. En pratique, #1 ne s’applique pas vraiment, car vous n’obtenez jamais une chaîne parfaite d’un génome humain entier. #Le numéro 3 est le plus efficace, et c’est ce que les gens font souvent circuler et traitent pour l’analyse et l’interprétation en aval. Mais le numéro 2 est la façon dont les génomes sont généralement stockés, car le séquençage reste une science imparfaite, tout comme l’identification des variantes. Il faut donc vraiment s’accrocher aux lectures de séquençage brutes et aux données de qualité associées, pour pouvoir ajuster ultérieurement les paramètres d’analyse des données, si nécessaire.
Ce que cela signifie, c’est que nous ferions mieux de nous préparer à une inondation majeure de données génomiques. Les données du projet 1000 génomes, par exemple, sont maintenant disponibles dans le cloud AWS et consistent en >200 téraoctets pour les 1700 participants. Comme le coût du séquençage du génome entier continue de baisser, des études de séquençage de plus en plus importantes sont mises en place. Il suffit de penser aux besoins de stockage de ce projet de 10 000 génomes de l’autisme, ou du projet de 100 000 génomes du Royaume-Uni….. ou même… haletant… ce projet de millions de génomes humains. Les demandes de calcul sont stupéfiantes et la grande question est la suivante : l’analyse des données peut-elle suivre et qu’allons-nous apprendre de ce flot de A, T, G et C….?
.