FastA-muoto

Virallinen FastA-dokumentaatio löytyy täältä

FastA-muoto on perustavanlaatuisin muoto sekvenssin raportointiin, ja lähes kaikki sekvenssianalyysiohjelmat hyväksyvät sen. Se sisältää vain sekvenssin nimen, sekvenssin kuvauksen (metatiedot, sekvensseritiedot, huomautukset jne.) ja itse sekvenssin – se voi olla joko nukleiinihappoja tai aminohappoja, kunhan se noudattaa formaattia.

Jokainen sekvenssi koostuu vähintään kahdesta rivistä:

  1. Ensimmäinen on sekvenssin otsikko, joka alkaa aina ’>’
    • Kaikkea alkavasta ’>’-merkistä ensimmäiseen välilyöntiin katsotaan sekvenssin tunnisteeksi. Kaikki sen jälkeen katsotaan sekvenssin kuvaukseksi (tämä voi olla metatietoa, koneen sarjanumero, lukusuuntaus jne.)
  2. Sama sekvenssi
    • Huomaa, että sekvenssi voi ulottua useammalle riville sekvenssin pituudesta riippuen.
>Chr1 CHROMOSOME dumped from ADB: Jun/20/09 14:53; last updated: 2009-02-02CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTTATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTGTAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGGGATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAAAGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGCTTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTCAAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCGTAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTATGATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACAATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGTTTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCCCCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAGTTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTT

Ohjelmistot, jotka käyttävät FastA-formaattia

Useimmissa tapauksissa tässä työpajassa törmäätte kyseiseen formaattiin referenssisekvenssillä. DB-kyselytyökalut, kuten blast, ja monisekvenssien kohdistamisalgoritmit hyväksyvät vain FastA-formaatin. Myös kun lataat referenssigenomeja, ne toimitetaan tässä muodossa.

Miten nämä tiedostot luodaan?

  • Jotkut vanhemmat NGS-sekvenssilaitteet raportoivat sekvenssit tässä muodossa. Sanger-sekvensointi toimittaa myös tässä muodossa.
  • Useimmat sekvenssitietokannat tallentavat sekvenssejä FastA-muodossa, joka on ladattavissa.
  • FastA voidaan tuottaa myös FastQ-tiedostosta.

Napataan yksi!

Vastaa

Sähköpostiosoitettasi ei julkaista.