Formato FastA

La documentazione ufficiale FastA può essere trovata qui

Il formato FastA è il formato più basilare per riportare una sequenza ed è accettato da quasi tutti i programmi di analisi di sequenza. Contiene solo un nome di sequenza, una descrizione della sequenza (metadati, informazioni sul sequenziatore, annotazioni, ecc.), e la sequenza stessa – può essere sia acidi nucleici che aminoacidi, purché aderisca al formato.

Ogni sequenza consiste di almeno due righe:

  1. La prima è l’intestazione della sequenza, che inizia sempre con un ‘>’
    • Tutto ciò che va dall’inizio ‘>’ al primo spazio bianco è considerato l’identificatore della sequenza. Tutto ciò che segue è considerato la descrizione della sequenza (questi possono essere metadati, numero di serie della macchina, orientamento della lettura, ecc.
  2. La sequenza stessa
    • Nota che la sequenza può estendersi su più righe, a seconda della lunghezza della sequenza.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Software che usano il formato FastA

Nella maggior parte dei casi in questo workshop incontrerai questo formato quando usi una sequenza di riferimento. Gli strumenti di interrogazione DB come blast e gli algoritmi di allineamento a sequenze multiple accettano solo il formato FastA. Inoltre, quando scarichi i genomi di riferimento sono consegnati in questo formato.

Come vengono generati questi file?

  • Alcuni vecchi sequenziatori NGS riportano le sequenze in questo formato. Anche il sequenziamento Sanger consegna in questo formato.
  • La maggior parte dei database di sequenze memorizza le sequenze in formato FastA che è disponibile per il download.
  • FastA può anche essere generato da un file FastQ.

Prendiamone uno!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.