Format FastA

Oficjalną dokumentację FastA można znaleźć tutaj

Format FastA jest najbardziej podstawowym formatem raportowania sekwencji i jest akceptowany przez prawie wszystkie programy do analizy sekwencji. Zawiera on jedynie nazwę sekwencji, opis sekwencji (metadane, informacje o sekwencerze, adnotacje, itp.) oraz samą sekwencję – mogą to być zarówno kwasy nukleinowe, jak i aminokwasy, o ile są zgodne z formatem.

Każda sekwencja składa się z co najmniej dwóch linii:

  1. Najpierw jest nagłówek sekwencji, który zawsze zaczyna się od ’>’
    • Wszystko od początku ’>’ do pierwszej białej spacji jest uważane za identyfikator sekwencji. Wszystko po nim jest uważane za opis sekwencji (mogą to być metadane, numer seryjny maszyny, orientacja odczytu, itp.)
  2. Sekwencja
    • Zauważ, że sekwencja może obejmować wiele linii, w zależności od długości sekwencji.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Oprogramowania używające formatu FastA

W większości przypadków podczas warsztatów zetkniesz się z tym formatem podczas używania sekwencji referencyjnej. Narzędzia zapytań DB takie jak blast i algorytmy wyrównywania wielu sekwencji akceptują tylko format FastA. Również, gdy pobieramy genomy referencyjne są one dostarczane w tym formacie.

Jak generowane są te pliki?

  • Niektóre starsze sekwencjonery NGS raportują sekwencje w tym formacie. Sekwencjonowanie Sangera również dostarcza sekwencje w tym formacie.
  • Większość baz danych sekwencji przechowuje sekwencje w formacie FastA, który jest dostępny do pobrania.
  • FastA można również wygenerować z pliku FastQ.

Złapmy jeden!

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.