FastA-Format

Die offizielle FastA-Dokumentation finden Sie hier

Das FastA-Format ist das einfachste Format für die Meldung einer Sequenz und wird von fast allen Sequenzanalyseprogrammen akzeptiert. Es enthält nur einen Sequenznamen, eine Beschreibung der Sequenz (Metadaten, Sequenzer-Infos, Anmerkungen usw.) und die Sequenz selbst – es kann sich dabei entweder um Nukleinsäuren oder Aminosäuren handeln, solange sie sich an das Format hält.

Jede Sequenz besteht aus mindestens zwei Zeilen:

  1. Die erste ist der Sequenzkopf, der immer mit einem ‚>‘
    • Alles vom beginnenden ‚>‘ bis zum ersten Leerzeichen wird als Sequenzidentifikator betrachtet. Alles, was danach kommt, gilt als Sequenzbeschreibung (dies können Metadaten, Maschinenseriennummer, Leseausrichtung usw. sein)
  2. Die Sequenz selbst
    • Beachten Sie, dass sich die Sequenz über mehrere Zeilen erstrecken kann, je nach Länge der Sequenz.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Software, die das FastA-Format verwendet

In den meisten Fällen in diesem Workshop werden Sie diesem Format begegnen, wenn Sie eine Referenzsequenz verwenden. DB-Abfrage-Tools wie Blast und Algorithmen zum Alignment mehrerer Sequenzen akzeptieren nur das FastA-Format. Auch wenn Sie Referenzgenome herunterladen, werden sie in diesem Format geliefert.

Wie werden diese Dateien erzeugt?

  • Einige ältere NGS-Sequenzer liefern Sequenzen in diesem Format. Die Sanger-Sequenzierung liefert ebenfalls in diesem Format.
  • Die meisten Sequenzdatenbanken speichern Sequenzen im FastA-Format, das zum Herunterladen zur Verfügung steht.
  • FastA kann auch aus einer FastQ-Datei generiert werden.

Lassen Sie uns eine nehmen!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.