FastA formát

Oficiální dokumentaci FastA naleznete zde

FastA formát je nejzákladnější formát pro hlášení sekvence a je akceptován téměř všemi programy pro sekvenční analýzu. Obsahuje pouze název sekvence, popis sekvence (metadata, informace o sekvenátoru, anotace atd.) a samotnou sekvenci – může se jednat o nukleové kyseliny nebo aminokyseliny, pokud dodrží formát.

Každá sekvence se skládá nejméně ze dvou řádků:

  1. První je záhlaví sekvence, které vždy začíná znakem ‚>‘
    • Vše od začátku ‚>‘ až po první bílý znak se považuje za identifikátor sekvence. Vše, co následuje, se považuje za popis sekvence (mohou to být metadata, sériové číslo stroje, orientace čtení atd.)
  2. Samotná sekvence
    • Všimněte si, že sekvence může zahrnovat více řádků, v závislosti na její délce.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Software, který používá formát FastA

Ve většině případů se v průběhu celého semináře setkáte s tímto formátem při použití referenční sekvence. Dotazovací nástroje DB jako blast a algoritmy pro zarovnávání vícenásobných sekvencí akceptují pouze formát FastA. Také při stahování referenčních genomů jsou dodávány v tomto formátu.

Jak jsou tyto soubory generovány?

  • Některé starší sekvenátory NGS hlásí sekvence v tomto formátu. Sangerovo sekvenování také dodává sekvence v tomto formátu.
  • Většina sekvenačních databází ukládá sekvence ve formátu FastA, který je k dispozici ke stažení.
  • FastA lze také vygenerovat ze souboru FastQ.

Uchopme jeden!

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.