Illumina färgsekvensering
Genomiskt bibliotekRedigera
När DNA:t har renats måste ett DNA-bibliotek, genomiskt bibliotek, skapas. Det finns två sätt att skapa ett genomiskt bibliotek, sonifiering och taggning. Vid taggning skär transposaserna slumpmässigt DNA:t i fragment av en storlek på mellan 50 och 500 bp och lägger samtidigt till adaptorer. Ett genetiskt bibliotek kan också skapas genom att använda sonifiering för att fragmentera genomiskt DNA. Sonifiering fragmenterar DNA i liknande storlekar med hjälp av ultraljudsvågor. Höger och vänster adapter måste fästas av T7 DNA-polymeras och T4 DNA-ligas efter sonifiering. Strängar som inte får adaptrar ligerade tvättas bort.
AdaptersEdit
Adapters innehåller tre olika segment: sekvensen som är komplementär till det fasta stödet (oligonukleotider på flödescellen), streckkodssekvensen (index) och bindningsstället för sekvenseringsprimern. Indexen är vanligtvis sex baspar långa och används under DNA-sekvensanalysen för att identifiera proverna. Indexen gör det möjligt att köra upp till 96 olika prover tillsammans, detta kallas även multiplexering. Under analysen grupperar datorn alla läsningar med samma index tillsammans. Illumina använder sig av ett tillvägagångssätt med ”sekvens genom syntes”. Denna process sker inuti en akrylamidbelagd flödescell av glas. Flödescellen har oligonukleotider (korta nukleotidsekvenser) som täcker cellens botten, och de fungerar som ett fast stöd för att hålla DNA-strängarna på plats under sekvenseringen. När det fragmenterade DNA:t sköljs över flödescellen fäster den lämpliga adaptern vid det komplementära fasta stödet.
BroamplifieringRedigera
När de väl är fästa kan klusterbildningen börja. Målet är att skapa hundratals identiska DNA-strängar. En del kommer att vara den framåtriktade strängen; resten kommer att vara den omvända. Det är därför som höger och vänster adaptrar används. Kluster genereras genom broamplifiering. DNA-polymeras rör sig längs en DNA-sträng och skapar dess komplementära sträng. Den ursprungliga strängen tvättas bort så att endast den omvända strängen återstår. I toppen av den omvända strängen finns en adaptersekvens. DNA-strängen böjer sig och fäster vid den oligo som är komplementär till den översta adaptersekvensen. Polymeraserna fäster vid den omvända strängen och dess komplementära sträng (som är identisk med den ursprungliga) tillverkas. Det nu dubbelsträngade DNA:t denatureras så att varje sträng kan fästa separat vid en oligonukleotidsekvens som är förankrad i flödescellen. Den ena strängen kommer att vara den omvända strängen och den andra kommer att vara den framåtriktade strängen. Denna process kallas broamplifiering, och den sker för tusentals kluster över hela flödescellen samtidigt.
KlonamplifieringRedigera
Om och om igen kommer DNA-strängarna att böja sig och fästa vid det fasta stödet. DNA-polymeras kommer att syntetisera en ny sträng för att skapa ett dubbelsträngat segment, och det kommer att denatureras så att alla DNA-strängar i ett område kommer från en enda källa (klonal amplifiering). Klonal amplifiering är viktig för kvalitetskontrollen. Om en sträng visar sig ha en udda sekvens kan forskarna kontrollera den omvända strängen för att se till att den har komplementet till samma udda sekvens. Den främre och den bakre strängen fungerar som kontroller för att skydda mot artefakter. Eftersom Illumina-sekvensering använder DNA-polymeras har basersättningsfel observerats, särskilt i 3′-ändan. Parvisa avläsningar i kombination med klustergenerering kan bekräfta att ett fel har inträffat. De omvända och framåtriktade strängarna bör vara komplementära till varandra, alla omvända avläsningar bör matcha varandra och alla framåtriktade avläsningar bör matcha varandra. Om en avläsning inte är tillräckligt lik sina motsvarigheter (med vilka den borde vara en klon) kan ett fel ha inträffat. Ett lägsta tröskelvärde på 97 % likhet har använts i vissa laboratoriers analyser.
Sekvens genom syntesRedigera
I slutet av klonamplifieringen tvättas alla omvända strängar bort från flödescellen, så att endast de framåtriktade strängarna återstår. En primer fäster vid den främre strängens adapterprimerbindningsställe, och ett polymeras lägger till en fluorescerande märkt dNTP till DNA-strängen. Endast en bas kan läggas till per omgång på grund av att fluoroforen fungerar som en blockerande grupp; den blockerande gruppen är dock reversibel. Med hjälp av fyrfärgskemin har var och en av de fyra baserna ett unikt utsläpp, och efter varje omgång registrerar maskinen vilken bas som lades till. När färgen registrerats tvättas fluoroforen bort och en annan dNTP tvättas över flödescellen och processen upprepas. dATPs, dTTPs, dGTPs och dCTPs tvättas över cellen separat så att varje nukleotid kan identifieras.
I samband med lanseringen av NextSeq och senare MiniSeq introducerade Illumina en ny tvåfärgskemi för sekvensering. Nukleotider urskiljs genom antingen en av två färger (röd eller grön), ingen färg (”svart”) eller genom att kombinera båda färgerna (de visas orange som en blandning mellan rött och grönt).
När DNA-strängen har lästs av tvättas den sträng som just lagts till bort. Därefter fäster index 1-primern, polymeriserar index 1-sekvensen och tvättas bort. Strängen bildar återigen en bro och DNA-strängens 3′ ände fäster vid en oligo på flödescellen. Index 2-primern fäster, polymeriserar sekvensen och tvättas bort.
En polymeras sekvenserar den komplementära strängen ovanpå den välvda strängen. De separeras och 3′-ändan av varje sträng blockeras. Den främre strängen tvättas bort, och processen med sekvens genom syntes upprepas för den bakre strängen.
DataanalysRedigera
Sekvenseringen sker för miljontals kluster samtidigt, och varje kluster har ~1 000 identiska kopior av ett DNA-inslag. Sekvensdata analyseras genom att hitta fragment med överlappande områden, så kallade contigs, och rada upp dem. Om en referenssekvens är känd jämförs sedan contigs med den för att identifiera varianter.
Denna fragmentariska process gör det möjligt för forskare att se den fullständiga sekvensen även om en ofragmenterad sekvens aldrig kördes; eftersom Illuminas avläsningslängder inte är särskilt långa (HiSeq-sekvensering kan ge avläsningslängder som är cirka 90 bp långa), kan det dock vara en kamp att lösa upp korta tandemrepetitionsområden. Om sekvensen är de novo och det inte finns någon referens kan upprepade områden dessutom orsaka stora svårigheter vid sammansättning av sekvensen. Ytterligare svårigheter är basersättningar (särskilt i 3′-ändan av läsningar) av felaktiga polymeraser, chimära sekvenser och PCR-bias, som alla kan bidra till att generera en felaktig sekvens.