Illumina dye sequencing
Genomic LibraryEdit
Nadat het DNA is gezuiverd moet een DNA-bibliotheek, genomic library, worden gegenereerd. Er zijn twee manieren waarop een genomische bibliotheek kan worden gemaakt, sonificatie en tagmentatie. Bij tagmentatie knipt een transposase het DNA willekeurig in fragmenten van 50 tot 500 bp en voegt gelijktijdig adaptors toe. Een genetische bibliotheek kan ook worden gegenereerd door sonificatie te gebruiken om genomisch DNA te fragmenteren. Sonificatie fragmenteert DNA in vergelijkbare grootte met behulp van ultrasone geluidsgolven. Rechter en linker adapters moeten na sonificatie door T7 DNA-polymerase en T4 DNA-ligase worden bevestigd. Strengen waaraan geen adapters zijn geligeerd, worden weggespoeld.
AdaptersEdit
Adapters bevatten drie verschillende segmenten: de sequentie die complementair is aan de vaste drager (oligonucleotiden op flow cell), de barcodesequentie (indices), en de bindingsplaats voor de sequencingprimer. Indices zijn gewoonlijk zes basenparen lang en worden tijdens DNA-sequentieanalyse gebruikt om monsters te identificeren. Met indices kunnen tot 96 verschillende monsters samen worden uitgevoerd, dit wordt ook multiplexing genoemd. Tijdens de analyse groepeert de computer alle lezingen met dezelfde index samen. Illumina gebruikt een “sequence by synthesis”-aanpak. Dit proces vindt plaats in een met acrylamide beklede glazen flowcel. De flow cell heeft oligonucleotiden (korte nucleotide sequenties) die de bodem van de cel bedekken, en zij dienen als vaste drager om de DNA-strengen op hun plaats te houden tijdens het sequencen. Wanneer het gefragmenteerde DNA over de flowcel wordt gewassen, hecht de juiste adapter zich aan de complementaire vaste drager.
BrugamplificatieEdit
Eenmaal bevestigd, kan het genereren van clusters beginnen. Het doel is om honderden identieke DNA-strengen te maken. Sommige zullen de voorwaartse streng zijn; de rest, de omgekeerde. Dit is de reden waarom rechter en linker adapters worden gebruikt. Clusters worden gegenereerd door middel van brugamplificatie. DNA-polymerase beweegt zich langs een streng DNA en maakt de complementaire streng. De oorspronkelijke streng wordt weggespoeld, zodat alleen de omgekeerde streng overblijft. Aan de top van de omgekeerde streng bevindt zich een adaptersequentie. De DNA-streng buigt en hecht zich aan de oligo die complementair is aan de bovenste adaptersequentie. Polymerasen hechten zich aan de omgekeerde streng, en de complementaire streng (die identiek is aan de oorspronkelijke) wordt gemaakt. Het nu dubbelstrengs DNA wordt gedenatureerd zodat elke streng zich afzonderlijk kan hechten aan een oligonucleotide-sequentie die aan de flowcel is verankerd. De ene streng is de omgekeerde streng, de andere de voorwaartse. Dit proces wordt brugamplificatie genoemd, en het gebeurt voor duizenden clusters tegelijk over de hele flowcel.
Klonale amplificatieEdit
Keer op keer zullen de DNA-strengen buigen en zich aan de vaste drager hechten. DNA-polymerase synthetiseert een nieuwe streng tot een dubbelstrengs segment, dat wordt gedenatureerd zodat alle DNA-strengen in één gebied van één bron afkomstig zijn (klonale amplificatie). Klonale amplificatie is belangrijk voor de kwaliteitscontrole. Als een streng een vreemde sequentie blijkt te hebben, kunnen wetenschappers de omgekeerde streng controleren om er zeker van te zijn dat deze het complement van dezelfde vreemde sequentie heeft. De voorwaartse en achterwaartse strengen fungeren als controles om artefacten te voorkomen. Omdat bij Illumina-sequencing gebruik wordt gemaakt van DNA-polymerase, zijn er basesubstitutiefouten waargenomen, vooral aan het 3′-uiteinde. Gepaarde einde leest gecombineerd met cluster generatie kan bevestigen dat een fout heeft plaatsgevonden. De reverse en forward strands moeten complementair aan elkaar zijn, alle reverse reads moeten met elkaar overeenkomen, en alle forward reads moeten met elkaar overeenkomen. Als een lezing niet voldoende gelijkenis vertoont met zijn tegenhangers (waarmee het een kloon zou moeten zijn), kan er een fout zijn opgetreden. Een minimumdrempel van 97% overeenkomst is gebruikt in de analyses van sommige laboratoria.
Sequence by synthesisEdit
Aan het einde van de klonale amplificatie worden alle reverse strengen van de flowcel gewassen, waardoor alleen forward strengen overblijven. Een primer hecht zich aan de adapterprimerbindingsplaats van de voorwaartse strengen, en een polymerase voegt een fluorescent gemerkt dNTP aan de DNA-streng toe. Per ronde kan slechts één base worden toegevoegd doordat de fluorofoor als blokkerende groep fungeert; de blokkerende groep is echter omkeerbaar. Met behulp van de vierkleurenchemie heeft elk van de vier basen een unieke emissie, en na elke ronde registreert de machine welke base werd toegevoegd. Zodra de kleur is geregistreerd, wordt de fluorofoor weggespoeld en wordt een andere dNTP over de stroomcel gewassen en wordt het proces herhaald. dATP’s, dTTP’s, dGTP’s en dCTP’s worden afzonderlijk over de cel gewassen, zodat elke nucleotide kan worden geïdentificeerd.
Met de lancering van de NextSeq en later de MiniSeq introduceerde Illumina een nieuwe sequencing-chemie met twee kleuren. Nucleotiden worden onderscheiden door een van de twee kleuren (rood of groen), geen kleur (“zwart”) of een combinatie van beide kleuren (die oranje lijken als een mengsel tussen rood en groen).
Als de DNA-streng eenmaal is afgelezen, wordt de streng die zojuist is toegevoegd, weggespoeld. Vervolgens hecht de primer van index 1 zich, polymeriseert de sequentie van index 1, en wordt weggespoeld. De streng vormt weer een brug, en het 3′-uiteinde van de DNA-streng hecht zich aan een oligo op de flowcel. De index 2 primer hecht, polymeriseert de sequentie, en wordt weggespoeld.
Een polymerase sequeneert de complementaire streng bovenop de gebogen streng. Zij scheiden zich, en het 3′-uiteinde van elke streng wordt geblokkeerd. De voorwaartse streng wordt weggespoeld, en het proces van sequentie door synthese herhaalt voor de omgekeerde streng.
GegevensanalyseEdit
De sequencing gebeurt voor miljoenen clusters tegelijk, en elke cluster heeft ~ 1.000 identieke kopieën van een DNA insert. De sequentiegegevens worden geanalyseerd door fragmenten te vinden met overlappende gebieden, contigs genaamd, en deze op een rij te zetten. Als een referentiesequentie bekend is, worden de contigs daarmee vergeleken voor de identificatie van varianten.
Dit stapsgewijze proces stelt wetenschappers in staat de volledige sequentie te zien, ook al is er nooit een niet-gefragmenteerde sequentie uitgevoerd; maar omdat de leeslengte van Illumina niet erg lang is (HiSeq-sequencing kan leeslengten van ongeveer 90 bp produceren), kan het een strijd zijn om korte tandem-herhalingsgebieden op te lossen. Ook als de sequentie de novo is en er geen referentie bestaat, kunnen herhaalde gebieden veel problemen opleveren bij de sequentie-assemblage. Bijkomende moeilijkheden zijn basesubstituties (vooral aan het 3′-uiteinde van de gelezen sequenties) door onnauwkeurige polymerasen, chimerische sequenties en PCR-bias, die allemaal kunnen bijdragen tot het genereren van een onjuiste sequentie.