FastA Format

A documentação oficial FastA pode ser encontrada aqui

FastA format é o formato mais básico para relatar uma sequência e é aceite por quase todos os programas de análise de sequências. Ele contém apenas um nome de sequência, uma descrição da sequência (metadados, informações do sequenciador, anotações, etc.), e a própria sequência – pode ser tanto ácidos nucleicos como aminoácidos, desde que adere ao formato.

Cada sequência consiste de pelo menos duas linhas:

  1. A primeira é o cabeçalho da sequência, que começa sempre com um ‘>’
    • Tudo desde o início ‘>’ até ao primeiro espaço em branco é considerado o identificador da sequência. Tudo depois disso é considerado a descrição da sequência (isto pode ser metadados, número de série da máquina, orientação de leitura, etc.)
  2. A própria sequência
    • Nota que a sequência pode abranger várias linhas, dependendo do comprimento da sequência.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Software que usa o formato FastA

Na maioria dos casos ao longo deste workshop você encontrará este formato ao usar uma sequência de referência. Ferramentas de consulta DB como algoritmos de alinhamento de jateamento e sequências múltiplas aceitam apenas o formato FastA. Além disso, quando você baixa genomas de referência eles são entregues neste formato.

Como estes arquivos são gerados?

  • alguns sequenciadores NGS mais antigos relatam sequências neste formato. O sequenciamento Sanger também entrega neste formato.
  • A maior parte das sequências de bases de dados de sequências armazenam sequências no formato FastA que está disponível para download.
  • FastA também pode ser gerado a partir de um ficheiro FastQ.

Pega num!

Deixe uma resposta

O seu endereço de email não será publicado.