Secuenciación con tintes de Illumina
Biblioteca genómicaEditar
Después de purificar el ADN se necesita generar una biblioteca de ADN, biblioteca genómica. Hay dos maneras de crear una biblioteca genómica, la sonificación y la marcación. Con la marcación, las transposasas cortan aleatoriamente el ADN en fragmentos de entre 50 y 500 pb y añaden adaptadores simultáneamente. También se puede generar una biblioteca genética utilizando la sonificación para fragmentar el ADN genómico. La sonificación fragmenta el ADN en tamaños similares utilizando ondas sonoras ultrasónicas. Los adaptadores derecho e izquierdo deberán ser unidos por la ADN polimerasa T7 y la ADN ligasa T4 después de la sonificación. Las hebras en las que no se ligan los adaptadores son lavadas.
AdaptadoresEditar
Los adaptadores contienen tres segmentos diferentes: la secuencia complementaria al soporte sólido (oligonucleótidos en la celda de flujo), la secuencia de código de barras (índices) y el sitio de unión para el cebador de secuenciación. Los índices suelen tener una longitud de seis pares de bases y se utilizan durante el análisis de la secuencia de ADN para identificar las muestras. Los índices permiten que se ejecuten juntas hasta 96 muestras diferentes, lo que también se conoce como multiplexación. Durante el análisis, el ordenador agrupará todas las lecturas con el mismo índice. Illumina utiliza un enfoque de «secuencia por síntesis». Este proceso tiene lugar dentro de una celda de flujo de vidrio recubierta de acrilamida. La celda de flujo tiene oligonucleótidos (secuencias cortas de nucleótidos) que recubren el fondo de la celda y sirven de soporte sólido para mantener las cadenas de ADN en su lugar durante la secuenciación. A medida que el ADN fragmentado se lava sobre la celda de flujo, el adaptador apropiado se adhiere al soporte sólido complementario.
Amplificación por puenteEditar
Una vez adheridos, puede comenzar la generación de clusters. El objetivo es crear cientos de hebras idénticas de ADN. Algunas serán la hebra directa; el resto, la inversa. Por eso se utilizan adaptadores derechos e izquierdos. Los grupos se generan mediante la amplificación en puente. La ADN polimerasa se mueve a lo largo de una hebra de ADN, creando su hebra complementaria. La hebra original se elimina, dejando sólo la hebra inversa. En la parte superior de la cadena inversa hay una secuencia adaptadora. La cadena de ADN se dobla y se une al oligo que es complementario a la secuencia adaptadora superior. Las polimerasas se unen a la cadena inversa y se forma su cadena complementaria (que es idéntica a la original). El ADN, ahora de doble cadena, se desnaturaliza para que cada cadena pueda unirse por separado a una secuencia de oligonucleótidos anclada a la celda de flujo. Una será la cadena inversa; la otra, la delantera. Este proceso se denomina amplificación en puente, y se produce para miles de grupos en toda la celda de flujo a la vez.
Amplificación clonalEditar
Una y otra vez, las hebras de ADN se doblarán y se unirán al soporte sólido. La ADN polimerasa sintetizará una nueva hebra para crear un segmento de doble cadena, y que se desnaturalizará para que todas las hebras de ADN de una zona sean de una sola fuente (amplificación clonal). La amplificación clonal es importante para el control de calidad. Si se descubre que una hebra tiene una secuencia extraña, los científicos pueden comprobar la hebra inversa para asegurarse de que tiene el complemento de la misma rareza. Las cadenas directa e inversa actúan como controles para evitar los artefactos. Dado que la secuenciación de Illumina utiliza la ADN polimerasa, se han observado errores de sustitución de bases, especialmente en el extremo 3′. Las lecturas de extremos emparejados combinadas con la generación de clusters pueden confirmar que se ha producido un error. Las cadenas inversa y anterior deben ser complementarias entre sí, todas las lecturas inversas deben coincidir entre sí y todas las lecturas anteriores deben coincidir entre sí. Si una lectura no es lo suficientemente similar a sus homólogas (con las que debería ser un clon), puede haberse producido un error. En los análisis de algunos laboratorios se ha utilizado un umbral mínimo del 97% de similitud.
Secuencia por síntesisEditar
Al final de la amplificación clonal, todas las cadenas inversas se lavan de la celda de flujo, dejando sólo las cadenas delanteras. Un cebador se une al sitio de unión del cebador adaptador de la hebra delantera y una polimerasa añade un dNTP marcado con fluorescencia a la hebra de ADN. Sólo se puede añadir una base por ronda debido a que el fluoróforo actúa como grupo de bloqueo; sin embargo, el grupo de bloqueo es reversible. Utilizando la química de cuatro colores, cada una de las cuatro bases tiene una emisión única, y después de cada ronda, la máquina registra qué base se ha añadido. Una vez que se registra el color, se lava el fluoróforo y se lava otro dNTP sobre la celda de flujo y se repite el proceso. Los dATPs, dTTPs, dGTPs y dCTPs se lavan sobre la celda por separado para poder identificar cada nucleótido.
A partir del lanzamiento del NextSeq y posteriormente del MiniSeq, Illumina introdujo una nueva química de secuenciación en dos colores. Los nucleótidos se distinguen por uno de los dos colores (rojo o verde), por ningún color («negro») o por la combinación de ambos colores (apareciendo el naranja como una mezcla entre el rojo y el verde).
Una vez que se ha leído la cadena de ADN, se lava la cadena que se acaba de añadir. A continuación, el cebador de índice 1 se adhiere, polimeriza la secuencia de índice 1 y se lava. La cadena vuelve a formar un puente y el extremo 3′ de la cadena de ADN se une a un oligo en la celda de flujo. El cebador índice 2 se adhiere, polimeriza la secuencia y se lava.
Una polimerasa secuencia la hebra complementaria sobre la hebra arqueada. Se separan y se bloquea el extremo 3′ de cada hebra. La hebra delantera se lava, y el proceso de secuencia por síntesis se repite para la hebra inversa.
Análisis de datosEditar
La secuenciación se produce para millones de grupos a la vez, y cada grupo tiene ~1.000 copias idénticas de un inserto de ADN. Los datos de la secuencia se analizan encontrando fragmentos con áreas superpuestas, llamados contigs, y alineándolos. Si se conoce una secuencia de referencia, los contigs se comparan con ella para la identificación de variantes.
Este proceso fragmentario permite a los científicos ver la secuencia completa aunque nunca se haya ejecutado una secuencia no fragmentada; sin embargo, como las longitudes de lectura de Illumina no son muy largas (la secuenciación HiSeq puede producir longitudes de lectura de alrededor de 90 pb), puede ser una lucha para resolver áreas de repetición en tándem cortas. Además, si la secuencia es de novo y no existe una referencia, las áreas repetidas pueden causar mucha dificultad en el ensamblaje de la secuencia. Otras dificultades son las sustituciones de bases (especialmente en el extremo 3′ de las lecturas) por polimerasas inexactas, secuencias quiméricas y sesgo de PCR, todo lo cual puede contribuir a generar una secuencia incorrecta.