Illumina dye sequencing
Genomic LibraryEdit
Dopo che il DNA è stato purificato è necessario generare una libreria di DNA, la libreria genomica. Ci sono due modi per creare una libreria genomica: la sonificazione e la tagmentazione. Con la tagmentazione, la trasposasi taglia casualmente il DNA in frammenti di dimensioni comprese tra 50 e 500 bp e aggiunge contemporaneamente degli adattatori. Una biblioteca genetica può anche essere generata usando la sonificazione per frammentare il DNA genomico. La sonificazione frammenta il DNA in dimensioni simili usando onde sonore ultrasoniche. Gli adattatori destro e sinistro dovranno essere attaccati dalla DNA polimerasi T7 e dalla DNA ligasi T4 dopo la sonificazione. I filamenti che non riescono ad avere adattatori legati vengono lavati via.
AdattatoriModifica
Gli adattatori contengono tre diversi segmenti: la sequenza complementare al supporto solido (oligonucleotidi sulla cella di flusso), la sequenza del codice a barre (indici) e il sito di legame per il primer di sequenziamento. Gli indici sono solitamente lunghi sei paia di basi e sono utilizzati durante l’analisi della sequenza del DNA per identificare i campioni. Gli indici permettono di eseguire fino a 96 campioni diversi insieme, questo è anche noto come multiplexing. Durante l’analisi, il computer raggrupperà tutte le letture con lo stesso indice. Illumina utilizza un approccio “sequenza per sintesi”. Questo processo avviene all’interno di una cella di flusso in vetro rivestita di acrilammide. La cella di flusso ha oligonucleotidi (brevi sequenze di nucleotidi) che rivestono il fondo della cella, e servono come supporto solido per tenere i filamenti di DNA in posizione durante il sequenziamento. Mentre il DNA frammentato viene lavato sulla cella di flusso, l’adattatore appropriato si attacca al supporto solido complementare.
Amplificazione a ponteModifica
Una volta attaccato, la generazione di cluster può iniziare. L’obiettivo è quello di creare centinaia di filamenti identici di DNA. Alcuni saranno il filamento in avanti; il resto, quello inverso. Questo è il motivo per cui vengono utilizzati adattatori destri e sinistri. I cluster sono generati attraverso l’amplificazione a ponte. La DNA polimerasi si muove lungo un filamento di DNA, creando il suo filamento complementare. Il filamento originale viene lavato via, lasciando solo il filamento inverso. In cima al filamento inverso c’è una sequenza adattatore. Il filamento di DNA si piega e si attacca all’oligo che è complementare alla sequenza adattatore superiore. Le polimerasi si attaccano al filamento inverso, e il suo filamento complementare (che è identico all’originale) viene creato. Il DNA a doppio filamento viene denaturato in modo che ogni filamento possa attaccarsi separatamente a una sequenza oligonucleotidica ancorata alla cella di flusso. Uno sarà il filamento inverso; l’altro, quello in avanti. Questo processo è chiamato amplificazione a ponte, e avviene per migliaia di cluster in tutta la cella a flusso in una volta sola.
Amplificazione clonaleModifica
Oltre volte, i filamenti di DNA si piegheranno e si attaccheranno al supporto solido. La DNA polimerasi sintetizzerà un nuovo filamento per creare un segmento a doppio filamento, e questo sarà denaturato in modo che tutti i filamenti di DNA in una zona provengano da un’unica fonte (amplificazione clonale). L’amplificazione clonale è importante per il controllo di qualità. Se si scopre che un filamento ha una sequenza strana, gli scienziati possono controllare il filamento inverso per assicurarsi che abbia il complemento della stessa stranezza. I filamenti forward e reverse agiscono come controlli per evitare artefatti. Poiché il sequenziamento Illumina usa la DNA polimerasi, sono stati osservati errori di sostituzione delle basi, specialmente all’estremità 3′. Le letture di estremità accoppiate combinate con la generazione di cluster possono confermare che si è verificato un errore. I filamenti inversi e in avanti dovrebbero essere complementari l’uno all’altro, tutte le letture inverse dovrebbero corrispondere l’una all’altra, e tutte le letture in avanti dovrebbero corrispondere l’una all’altra. Se una lettura non è abbastanza simile alle sue controparti (con le quali dovrebbe essere un clone), potrebbe essersi verificato un errore. Una soglia minima del 97% di somiglianza è stata usata nelle analisi di alcuni laboratori.
Sequenza per sintesiModifica
Al termine dell’amplificazione clonale, tutti i filamenti inversi vengono lavati via dalla cella di flusso, lasciando solo i filamenti in avanti. Un primer si attacca al sito di legame del primer dell’adattatore dei filamenti in avanti, e una polimerasi aggiunge un dNTP etichettato in modo fluorescente al filamento di DNA. Solo una base può essere aggiunta per giro a causa del fluoroforo che agisce come gruppo di blocco; tuttavia, il gruppo di blocco è reversibile. Usando la chimica a quattro colori, ognuna delle quattro basi ha un’emissione unica, e dopo ogni ciclo, la macchina registra quale base è stata aggiunta. Una volta registrato il colore, il fluoroforo viene lavato via e un altro dNTP viene lavato sulla cella di flusso e il processo viene ripetuto. dATPs, dTTPs, dGTPs e dCTPs vengono lavati sulla cella separatamente, così ogni nucleotide è in grado di essere identificato.
A partire dal lancio del NextSeq e successivamente del MiniSeq, Illumina ha introdotto una nuova chimica di sequenziamento a due colori. I nucleotidi sono distinti da uno dei due colori (rosso o verde), nessun colore (“nero”) o combinando entrambi i colori (che appare arancione come una miscela tra rosso e verde).
Una volta che il filamento di DNA è stato letto, il filamento appena aggiunto viene lavato via. Poi, il primer indice 1 si attacca, polimerizza la sequenza indice 1 e viene lavato via. Il filamento forma nuovamente un ponte e l’estremità 3′ del filamento di DNA si attacca a un oligo sulla cella a flusso. Il primer indice 2 si attacca, polimerizza la sequenza e viene lavato via.
Una polimerasi sequenzia il filamento complementare sopra il filamento ad arco. Si separano e l’estremità 3′ di ciascun filamento viene bloccata. Il filamento in avanti viene lavato via, e il processo di sequenza per sintesi si ripete per il filamento inverso.
Analisi dei datiModifica
Il sequenziamento avviene per milioni di cluster contemporaneamente, e ogni cluster ha ~1.000 copie identiche di un inserto di DNA. I dati di sequenza vengono analizzati trovando frammenti con aree sovrapposte, chiamati contigs, e allineandoli. Se una sequenza di riferimento è nota, i contigs vengono poi confrontati con essa per l’identificazione delle varianti.
Questo processo frammentario permette agli scienziati di vedere la sequenza completa anche se una sequenza non frammentata non è mai stata eseguita; tuttavia, poiché le lunghezze di lettura Illumina non sono molto lunghe (il sequenziamento HiSeq può produrre lunghezze di lettura di circa 90 bp), può essere una lotta per risolvere le aree di ripetizione tandem brevi. Inoltre, se la sequenza è de novo e non esiste un riferimento, le aree ripetute possono causare molte difficoltà nell’assemblaggio della sequenza. Ulteriori difficoltà includono sostituzioni di basi (specialmente all’estremità 3′ delle letture) da parte di polimerasi imprecise, sequenze chimeriche e PCR-bias, tutte cose che possono contribuire a generare una sequenza errata.