FastA formát
Oficiální dokumentaci FastA naleznete zde
FastA formát je nejzákladnější formát pro hlášení sekvence a je akceptován téměř všemi programy pro sekvenční analýzu. Obsahuje pouze název sekvence, popis sekvence (metadata, informace o sekvenátoru, anotace atd.) a samotnou sekvenci – může se jednat o nukleové kyseliny nebo aminokyseliny, pokud dodrží formát.
Každá sekvence se skládá nejméně ze dvou řádků:
- První je záhlaví sekvence, které vždy začíná znakem ‚>‘
- Vše od začátku ‚>‘ až po první bílý znak se považuje za identifikátor sekvence. Vše, co následuje, se považuje za popis sekvence (mohou to být metadata, sériové číslo stroje, orientace čtení atd.)
- Samotná sekvence
- Všimněte si, že sekvence může zahrnovat více řádků, v závislosti na její délce.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software, který používá formát FastA
Ve většině případů se v průběhu celého semináře setkáte s tímto formátem při použití referenční sekvence. Dotazovací nástroje DB jako blast a algoritmy pro zarovnávání vícenásobných sekvencí akceptují pouze formát FastA. Také při stahování referenčních genomů jsou dodávány v tomto formátu.
Jak jsou tyto soubory generovány?
- Některé starší sekvenátory NGS hlásí sekvence v tomto formátu. Sangerovo sekvenování také dodává sekvence v tomto formátu.
- Většina sekvenačních databází ukládá sekvence ve formátu FastA, který je k dispozici ke stažení.
- FastA lze také vygenerovat ze souboru FastQ.