FastA-format
Den officiella FastA-dokumentationen finns här
FastA-formatet är det mest grundläggande formatet för att rapportera en sekvens och accepteras av nästan alla sekvensanalysprogram. Det innehåller endast ett sekvensnamn, en beskrivning av sekvensen (metadata, information om sekvenserare, annotationer etc.) och själva sekvensen – det kan vara antingen nukleinsyror eller aminosyror så länge den följer formatet.
Varje sekvens består av minst två rader:
- Den första är sekvenshuvudet, som alltid börjar med ett ”>”
- Allt från det begynnande ”>” till det första vitrymden betraktas som sekvensidentifieraren. Allt därefter betraktas som sekvensbeskrivningen (detta kan vara metadata, maskinens serienummer, läsriktning etc.)
- Själva sekvensen
- Bemärk att sekvensen kan sträcka sig över flera rader, beroende på längden på sekvensen.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Programvara som använder FastA-formatet
I de flesta fall under hela den här workshopen kommer du att stöta på detta format när du använder en referenssekvens. DB-sökverktyg som blast och algoritmer för anpassning av flera sekvenser accepterar endast FastA-formatet. När du laddar ner referensgenom levereras de också i detta format.
Hur genereras dessa filer?
- Vissa äldre NGS-sekvenser rapporterar sekvenser i detta format. Sanger-sekvensering levererar också i detta format.
- De flesta sekvensdatabaser lagrar sekvenser i FastA-format som kan laddas ner.
- FastA kan också genereras från en FastQ-fil.