FastA Format
A documentação oficial FastA pode ser encontrada aqui
FastA format é o formato mais básico para relatar uma sequência e é aceite por quase todos os programas de análise de sequências. Ele contém apenas um nome de sequência, uma descrição da sequência (metadados, informações do sequenciador, anotações, etc.), e a própria sequência – pode ser tanto ácidos nucleicos como aminoácidos, desde que adere ao formato.
Cada sequência consiste de pelo menos duas linhas:
- A primeira é o cabeçalho da sequência, que começa sempre com um ‘>’
- Tudo desde o início ‘>’ até ao primeiro espaço em branco é considerado o identificador da sequência. Tudo depois disso é considerado a descrição da sequência (isto pode ser metadados, número de série da máquina, orientação de leitura, etc.)
- A própria sequência
- Nota que a sequência pode abranger várias linhas, dependendo do comprimento da sequência.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software que usa o formato FastA
Na maioria dos casos ao longo deste workshop você encontrará este formato ao usar uma sequência de referência. Ferramentas de consulta DB como algoritmos de alinhamento de jateamento e sequências múltiplas aceitam apenas o formato FastA. Além disso, quando você baixa genomas de referência eles são entregues neste formato.
Como estes arquivos são gerados?
- alguns sequenciadores NGS mais antigos relatam sequências neste formato. O sequenciamento Sanger também entrega neste formato.
- A maior parte das sequências de bases de dados de sequências armazenam sequências no formato FastA que está disponível para download.
- FastA também pode ser gerado a partir de um ficheiro FastQ.