Illumina farvestof-sekventering
Genomisk bibliotekRediger
Når DNA’et er renset, skal der oprenses et DNA-bibliotek, et genomisk bibliotek, som skal genereres. Der er to måder, hvorpå et genomisk bibliotek kan oprettes, sonificering og tagmentering. Ved tagmentering skærer transposaser tilfældigt DNA’et op i fragmenter af en størrelse på mellem 50 og 500 bp og tilføjer samtidig adaptorer. Et genetisk bibliotek kan også genereres ved at anvende sonificering til at fragmentere genomisk DNA. Ved sonificering fragmenteres DNA i lignende størrelser ved hjælp af ultralydsbølger. Højre og venstre adaptere skal fastgøres af T7 DNA-polymerase og T4 DNA-ligase efter sonificering. Strenge, som ikke får adaptere ligeret, vaskes væk.
AdaptersEdit
Adaptere indeholder tre forskellige segmenter: sekvensen komplementær til fast støtte (oligonukleotider på flowcellen), stregkodesekvensen (indekser) og bindingsstedet for sekventeringspræmmeren. Indeksene er normalt seks basepar lange og anvendes under DNA-sekvensanalysen til at identificere prøverne. Indekser gør det muligt at køre op til 96 forskellige prøver sammen, hvilket også kaldes multiplexing. Under analysen vil computeren gruppere alle læsninger med samme indeks sammen. Illumina anvender en “sekvens ved syntese”-tilgang. Denne proces finder sted inde i en acrylamidbelagt glasflowcelle. Flowcellen har oligonukleotider (korte nukleotidsekvenser) i bunden af cellen, og de tjener som fast støtte til at holde DNA-strengene på plads under sekventeringen. Når det fragmenterede DNA skylles hen over flowcellen, fastgøres den relevante adapter til den komplementære faste støtte.
BroforstærkningRediger
Når de er fastgjort, kan klyngeproduktionen begynde. Målet er at skabe hundredvis af identiske DNA-strenge. Nogle vil være den fremadrettede streng; resten vil være den omvendte. Dette er grunden til, at der anvendes højre og venstre adaptere. Klynger genereres ved hjælp af broamplifikation. DNA-polymerase bevæger sig langs en DNA-streng og skaber dens komplementære streng. Den oprindelige streng vaskes væk og efterlader kun den omvendte streng. På toppen af den omvendte streng er der en adaptersekvens. DNA-strengen bøjer sig og lægger sig til den oligo, der er komplementær til den øverste adaptersekvens. Polymeraser sætter sig fast på den omvendte streng, og den komplementære streng (som er identisk med den oprindelige) bliver fremstillet. Det nu dobbeltstrengede DNA denatureres, således at hver streng kan knyttes separat til en oligonukleotidsekvens, der er forankret i flowcellen. Den ene vil være den omvendte streng, den anden den fremadrettede. Denne proces kaldes broforstærkning, og den sker for tusindvis af klynger over hele flowcellen på én gang.
KlonforstærkningRediger
Over og igen vil DNA-strengene bøje sig og binde sig til den faste støtte. DNA-polymerase vil syntetisere en ny streng for at skabe et dobbeltstrenget segment, og det vil blive denatureret, så alle DNA-strengene i et område kommer fra en enkelt kilde (klonal amplifikation). Klonal amplifikation er vigtig af hensyn til kvalitetskontrollen. Hvis en streng viser sig at have en mærkelig sekvens, kan forskerne kontrollere den omvendte streng for at sikre sig, at den har komplementet af den samme mærkelige sekvens. Den fremadrettede og den omvendte streng fungerer som kontrol for at beskytte mod artefakter. Da Illumina-sekventering anvender DNA-polymerase, er der blevet observeret basesubstitutionsfejl, især i 3′-enden. Paired end reads kombineret med clustergenerering kan bekræfte, at der er sket en fejl. Den omvendte og den fremadrettede streng skal være komplementære til hinanden, alle omvendte læsninger skal passe til hinanden, og alle fremadrettede læsninger skal passe til hinanden. Hvis en læsning ikke ligner sine modstykker (som den burde være en klon med) tilstrækkeligt meget, kan der være sket en fejl. En minimumstærskel på 97 % lighed er blevet anvendt i nogle laboratoriers analyser.
Sequence by synthesisRediger
I slutningen af klonforstærkningen vaskes alle de omvendte strenge af flowcellen, så der kun er fremadrettede strenge tilbage. En primer knyttes til den fremadrettede strengs adapterprimerbindingssted, og en polymerase tilføjer en fluorescerende mærket dNTP til DNA-strengen. Der kan kun tilføjes én base pr. runde på grund af fluoroforen, der fungerer som en blokerende gruppe; den blokerende gruppe er dog reversibel. Ved hjælp af firefarvekemien har hver af de fire baser en unik emission, og efter hver runde registrerer maskinen, hvilken base der blev tilføjet. Når farven er registreret, vaskes fluoroforen væk, og en anden dNTP vaskes over flowcellen, hvorefter processen gentages. dATP’er, dTTP’er, dGTP’er og dCTP’er vaskes over cellen hver for sig, således at hvert nukleotid kan identificeres.
Med lanceringen af NextSeq og senere MiniSeq introducerede Illumina en ny tofarvet sekventeringskemi. Nukleotider skelnes ved enten en af to farver (rød eller grøn), ingen farve (“sort”) eller ved at kombinere begge farver (fremstår orange som en blanding mellem rød og grøn).
Når DNA-strengen er blevet aflæst, vaskes den streng, der netop er blevet tilføjet, væk. Herefter lægger indeks 1-primeren sig til, polymeriserer indeks 1-sekvensen og vaskes væk. Strengen danner igen en bro, og 3′-enden af DNA-strengen hæfter sig til en oligo på flowcellen. Indeks 2-primeren lægger sig til, polymeriserer sekvensen og vaskes væk.
En polymerase sekvenserer den komplementære streng oven på den bueformede streng. De adskilles, og 3′-enden af hver streng er blokeret. Den fremadrettede streng vaskes væk, og processen med sekvens ved syntese gentages for den omvendte streng.
DataanalyseRediger
Sekventeringen sker for millioner af klynger på én gang, og hver klynge har ~1.000 identiske kopier af et DNA-indstik. Sekvensdataene analyseres ved at finde fragmenter med overlappende områder, kaldet contigs, og ved at liniere dem op. Hvis en referencesekvens er kendt, sammenlignes contigs derefter med den med henblik på identifikation af varianter.
Denne stykkevise proces giver forskerne mulighed for at se den komplette sekvens, selv om en ufragmenteret sekvens aldrig blev kørt; men fordi Illumina-læselængderne ikke er meget lange (HiSeq-sekventering kan producere læselængder på omkring 90 bp), kan det være en kamp at opløse korte tandemrepeatområder. Hvis sekvensen er de novo, og der ikke findes en reference, kan gentagne områder også forårsage store vanskeligheder i sekvenssamlingen. Yderligere vanskeligheder omfatter basesubstitutioner (især i 3′-enden af læsninger) ved upræcise polymeraser, chimære sekvenser og PCR-bias, som alle kan bidrage til at generere en ukorrekt sekvens.