FastA-format
Den officielle FastA-dokumentation kan findes her
FastA-formatet er det mest grundlæggende format til rapportering af en sekvens og accepteres af næsten alle sekvensanalyseprogrammer. Det indeholder kun et sekvensnavn, en beskrivelse af sekvensen (metadata, sekvenseringsinfo, annotationer osv.) og selve sekvensen – det kan være enten nukleinsyrer eller aminosyrer, så længe den overholder formatet.
Hver sekvens består af mindst to linjer:
- Den første er sekvenshovedet, som altid starter med et ‘>’
- Alt fra det indledende ‘>’ til det første whitespace betragtes som sekvensidentifikator. Alt derefter betragtes som sekvensbeskrivelsen (dette kan være metadata, maskinens serienummer, læseorientering osv.)
- Selve sekvensen
- Bemærk, at sekvensen kan strække sig over flere linjer, afhængigt af sekvensens længde.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software, der bruger FastA-formatet
I de fleste tilfælde i hele denne workshop vil du støde på dette format, når du bruger en referencesekvens. DB-forespørgselsværktøjer som blast og algoritmer til multipel sekvensudligning accepterer kun FastA-formatet. Når du downloader referencegenomer, leveres de også i dette format.
Hvordan genereres disse filer?
- Nogle ældre NGS-sequencere rapporterer sekvenser i dette format. Sanger-sekventering leverer også i dette format.
- De fleste sekvensdatabaser gemmer sekvenser i FastA-formatet, som kan downloades.
- FastA kan også genereres fra en FastQ-fil.