FastA-Format
Die offizielle FastA-Dokumentation finden Sie hier
Das FastA-Format ist das einfachste Format für die Meldung einer Sequenz und wird von fast allen Sequenzanalyseprogrammen akzeptiert. Es enthält nur einen Sequenznamen, eine Beschreibung der Sequenz (Metadaten, Sequenzer-Infos, Anmerkungen usw.) und die Sequenz selbst – es kann sich dabei entweder um Nukleinsäuren oder Aminosäuren handeln, solange sie sich an das Format hält.
Jede Sequenz besteht aus mindestens zwei Zeilen:
- Die erste ist der Sequenzkopf, der immer mit einem ‚>‘
- Alles vom beginnenden ‚>‘ bis zum ersten Leerzeichen wird als Sequenzidentifikator betrachtet. Alles, was danach kommt, gilt als Sequenzbeschreibung (dies können Metadaten, Maschinenseriennummer, Leseausrichtung usw. sein)
- Die Sequenz selbst
- Beachten Sie, dass sich die Sequenz über mehrere Zeilen erstrecken kann, je nach Länge der Sequenz.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT
Software, die das FastA-Format verwendet
In den meisten Fällen in diesem Workshop werden Sie diesem Format begegnen, wenn Sie eine Referenzsequenz verwenden. DB-Abfrage-Tools wie Blast und Algorithmen zum Alignment mehrerer Sequenzen akzeptieren nur das FastA-Format. Auch wenn Sie Referenzgenome herunterladen, werden sie in diesem Format geliefert.
Wie werden diese Dateien erzeugt?
- Einige ältere NGS-Sequenzer liefern Sequenzen in diesem Format. Die Sanger-Sequenzierung liefert ebenfalls in diesem Format.
- Die meisten Sequenzdatenbanken speichern Sequenzen im FastA-Format, das zum Herunterladen zur Verfügung steht.
- FastA kann auch aus einer FastQ-Datei generiert werden.