Format FastA
La documentation officielle de FastA se trouve ici
Le format FastA est le format le plus basique pour rapporter une séquence et est accepté par presque tous les programmes d’analyse de séquence. Il contient uniquement un nom de séquence, une description de la séquence (métadonnées, infos du séquenceur, annotations, etc.), et la séquence elle-même – il peut s’agir d’acides nucléiques ou d’acides aminés tant qu’elle respecte le format.
Chaque séquence se compose d’au moins deux lignes :
- La première est l’en-tête de la séquence, qui commence toujours par un ‘>’
- Tout ce qui va du début ‘>’ au premier espace est considéré comme l’identifiant de la séquence. Tout ce qui suit est considéré comme la description de la séquence (il peut s’agir de métadonnées, du numéro de série de la machine, de l’orientation de la lecture, etc.)
- La séquence elle-même
- Notez que la séquence peut s’étendre sur plusieurs lignes, en fonction de sa longueur.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Les logiciels qui utilisent le format FastA
Dans la plupart des cas, tout au long de cet atelier, vous rencontrerez ce format lorsque vous utiliserez une séquence de référence. Les outils d’interrogation des BD comme blast et les algorithmes d’alignement de séquences multiples n’acceptent que le format FastA. De même, lorsque vous téléchargez des génomes de référence, ils sont livrés dans ce format.
Comment ces fichiers sont-ils générés ?
- Certains anciens séquenceurs NGS rapportent les séquences dans ce format. Le séquençage Sanger livre également dans ce format.
- La plupart des bases de données de séquences stockent les séquences dans le format FastA qui est disponible pour le téléchargement.
- FastA peut également être généré à partir d’un fichier FastQ.