Formato FastA
La documentación oficial de FastA puede encontrarse aquí
El formato FastA es el más básico para informar de una secuencia y es aceptado por casi todos los programas de análisis de secuencias. Sólo contiene un nombre de secuencia, una descripción de la secuencia (metadatos, información del secuenciador, anotaciones, etc.), y la propia secuencia – puede ser de ácidos nucleicos o de aminoácidos siempre que se adhiera al formato.
Cada secuencia consta de al menos dos líneas:
- La primera es la cabecera de la secuencia, que siempre comienza con un ‘>’
- Todo lo que va desde el comienzo ‘>’ hasta el primer espacio en blanco se considera el identificador de la secuencia. Todo lo que sigue se considera la descripción de la secuencia (pueden ser metadatos, número de serie de la máquina, orientación de la lectura, etc.)
- La secuencia propiamente dicha
- Tenga en cuenta que la secuencia puede abarcar varias líneas, dependiendo de la longitud de la misma.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software que utiliza el formato FastA
En la mayoría de los casos a lo largo de este taller se encontrará con este formato cuando utilice una secuencia de referencia. Las herramientas de consulta de BD como Blast y los algoritmos de alineación de secuencias múltiples sólo aceptan el formato FastA. Además, cuando se descargan genomas de referencia se entregan en este formato.
¿Cómo se generan estos archivos?
- Algunos secuenciadores NGS antiguos informan de las secuencias en este formato. La secuenciación Sanger también entrega en este formato.
- La mayoría de las bases de datos de secuencias almacenan las secuencias en formato FastA que está disponible para su descarga.
- FastA también puede generarse a partir de un archivo FastQ.