FastA-formaat
De officiële FastA-documentatie vindt u hier
FastA-formaat is het meest elementaire formaat voor het rapporteren van een sequentie en wordt door vrijwel alle sequentie-analyseprogramma’s geaccepteerd. Het bevat alleen een sequentienaam, een beschrijving van de sequentie (metadata, sequencer info, annotaties, enz.), en de sequentie zelf – het kan zowel nucleïnezuren of aminozuren zijn, zolang het zich maar aan het formaat houdt.
Elke sequentie bestaat uit ten minste twee regels:
- De eerste is de header van de sequentie, die altijd begint met een ‘>’
- Alles vanaf het begin ‘>’ tot de eerste spatie wordt beschouwd als de sequentie-identifier. Alles wat daarna komt, wordt beschouwd als de sequentiebeschrijving (dit kunnen metagegevens zijn, het serienummer van de machine, de leesrichting, enz.)
- De sequentie zelf
- Merk op dat de sequentie meerdere regels kan beslaan, afhankelijk van de lengte van de sequentie.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software die het FastA-formaat gebruikt
In de meeste gevallen in deze workshop zult u dit formaat tegenkomen bij het gebruik van een referentiesequentie. DB query tools zoals blast en multiple-sequence alignment algoritmes accepteren alleen FastA formaat. Ook wanneer u referentie-genomen downloadt, worden deze in dit formaat aangeleverd.
Hoe worden deze bestanden gegenereerd?
- Sommige oudere NGS-sequencers rapporteren sequenties in dit formaat. Sanger sequencing levert ook in dit formaat.
- De meeste sequentiedatabases slaan sequenties op in FastA-formaat dat kan worden gedownload.
- FastA kan ook worden gegenereerd uit een FastQ-bestand.