FastA-format

Den officielle FastA-dokumentation kan findes her

FastA-formatet er det mest grundlæggende format til rapportering af en sekvens og accepteres af næsten alle sekvensanalyseprogrammer. Det indeholder kun et sekvensnavn, en beskrivelse af sekvensen (metadata, sekvenseringsinfo, annotationer osv.) og selve sekvensen – det kan være enten nukleinsyrer eller aminosyrer, så længe den overholder formatet.

Hver sekvens består af mindst to linjer:

  1. Den første er sekvenshovedet, som altid starter med et ‘>’
    • Alt fra det indledende ‘>’ til det første whitespace betragtes som sekvensidentifikator. Alt derefter betragtes som sekvensbeskrivelsen (dette kan være metadata, maskinens serienummer, læseorientering osv.)
  2. Selve sekvensen
    • Bemærk, at sekvensen kan strække sig over flere linjer, afhængigt af sekvensens længde.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Software, der bruger FastA-formatet

I de fleste tilfælde i hele denne workshop vil du støde på dette format, når du bruger en referencesekvens. DB-forespørgselsværktøjer som blast og algoritmer til multipel sekvensudligning accepterer kun FastA-formatet. Når du downloader referencegenomer, leveres de også i dette format.

Hvordan genereres disse filer?

  • Nogle ældre NGS-sequencere rapporterer sekvenser i dette format. Sanger-sekventering leverer også i dette format.
  • De fleste sekvensdatabaser gemmer sekvenser i FastA-formatet, som kan downloades.
  • FastA kan også genereres fra en FastQ-fil.

Lad os få fat i en!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.