Un sistema de evaluación automática de la enfermedad de Alzheimer basado en el habla utilizando un generador de secuencias de características y una red neuronal recurrente

Resumen del sistema

En nuestro sistema había principalmente tres componentes: un procedimiento de recolección de datos que recogía los datos del habla del usuario, el Generador de Secuencia de Características que convertía los datos del habla en la Secuencia de Características, que era una novedosa representación de características propuesta en este estudio, y un Motor de Evaluación de EA que generaba la puntuación de tener EA. El diagrama de flujo del sistema se muestra en la Fig. 1.

Figura 1

El diagrama de flujo del sistema. En primer lugar, se instruyó al usuario sobre el formulario y el flujo de las pruebas neuropsicológicas posteriores en persona. A continuación, se pedía al usuario que se sentara en un escritorio colocado con un micrófono y un par de altavoces encima. Con un total de seis pruebas neuropsicológicas seleccionadas por sesión, la descripción de cada prueba neuropsicológica se reprodujo durante 30 segundos, y fue seguida por una ventana de respuesta de 1 minuto. Los datos del habla sólo se registraron durante ese período de un minuto. En general, sólo se tardaba menos de 10 minutos en completar una sesión.

Selección de pruebas neuropsicológicas

En nuestro sistema se seleccionaron tres tipos de pruebas neuropsicológicas, que fueron la prueba de fluidez19,20,21, la prueba de descripción de imágenes22,23,24 y la prueba de memoria lógica25,26,27. La selección se basó en la evaluación neuropsicológica llevada a cabo en un entorno clínico, así como en investigaciones bien conocidas sobre la EA. Estas pruebas habían demostrado ser eficaces para caracterizar los rasgos clave de la EA, todos ellos problemas muy diferenciables.

Test de fluidez

El procedimiento del test de fluidez fue el siguiente. Dada una categoría designada, se pedía al sujeto que dijera el mayor número posible de palabras diferentes relacionadas con esa categoría durante un tiempo limitado. Por ejemplo, si la categoría era animal, las respuestas posibles eran elefantes, tigres, cebras, etc. En nuestro sistema, se eligió la categoría de animal y fruta, y el límite de tiempo para cada categoría fue de un minuto.

Test de descripción de imágenes

El procedimiento del test de descripción de imágenes fue el siguiente. Dada una imagen presentada, se pedía al sujeto que describiera el escenario de la imagen lo más detalladamente posible durante un tiempo limitado. Por ejemplo, la siguiente descripción era una posible respuesta. Esta es una imagen que muestra una tarde típica de una familia. Papá está viendo el béisbol y mamá está tejiendo una bufanda. La hora actual es …, etc. En nuestro sistema, se eligió una imagen de un estudio relacionado realizado en Japón28 , que compartía un entorno cultural similar al nuestro, y otra de la Batería de Afasia Occidental (WAB)29 . El límite de tiempo para cada imagen fue también de un minuto.

Test de memoria lógica

El procedimiento del test de memoria lógica fue el siguiente. Se leía una historia corta en voz alta a los participantes, y después se pedía al sujeto que recordara espontáneamente la historia con la mayor precisión posible. En nuestro sistema, se incluyeron dos historias de la Escala de Memoria Wechsler III (WMS-III)30 para su análisis. Aunque no había límite de tiempo para las pruebas de memoria lógica en una configuración clínica, en nuestro sistema se aplicó un límite de tiempo de un minuto en aras de la coherencia.

Representación de rasgos – secuencia de rasgos

A diferencia de muchas de las publicaciones existentes12,13,14,15,16,17,18, nuestro objetivo era diseñar una representación que pudiera incorporar implícitamente todos los rasgos a la vez. Lo que conseguimos fue una secuencia de tokens, donde cada token era responsable de representar un único elemento del discurso. Con esta representación, las pausas pueden ser identificadas por un token de silencio o un token de pausa rellenado, la repetición puede ser identificada por tokens que se repiten a lo largo de la secuencia, y la disfluencia puede ser identificada por la alternancia entre tokens de silencio y otros tokens. Además de estas tres características clave, también se pueden identificar muchas otras características derivadas útiles que se discuten en la literatura existente13 . Por ejemplo, la longitud y la velocidad del discurso son proporcionales al número de fichas de la secuencia. Incluso algunas de las características dependientes del contexto, como el número de palabras únicas y las palabras de baja frecuencia, podrían inferirse a partir de la distribución de los tokens, ya que cada token puede ser una aproximación bastante cercana a una palabra específica. Estas propiedades hacían que nuestro diseño fuera totalmente capaz de representar el habla de los pacientes con EA, lo que constituía un excelente candidato para tareas como la detección y evaluación de la EA. La secuencia de tokens se denomina Secuencia de Características en los siguientes contenidos.

Para cumplir con los criterios de la Secuencia de Características, los posibles tokens candidatos eran fonemas, sílabas, palabras, enunciados, etc. La principal consideración para seleccionar el candidato óptimo fue la idoneidad, la capacidad de entrenamiento y la generalización. La idoneidad se refería a la forma en que los tokens podían manifestar las características clave. Esto descartó los fonemas, ya que son las unidades mínimas del discurso, por lo que iba a haber muchos tokens recurrentes, lo que podría inducir a error en la identificación de la repetición, ya que podrían proceder de la misma palabra o de palabras diferentes. La capacidad de entrenamiento se refería a la posibilidad de construir un clasificador para la evaluación de la EA basado en la secuencia de características y en un generador automático de secuencias de características. Esto descartó la expresión, ya que era imposible recopilar suficientes datos de entrenamiento. Por último, la generalización consistía en saber si los tokens podían incorporar los dialectos regionales y el uso de lenguas mixtas en Taiwán. Esto descartó la palabra, ya que ni siquiera existe una forma escrita oficial para el taiwanés y el hakka. Por otro lado, las sílabas del chino mandarín, el taiwanés y el hakka son muy similares, lo que lo hacía generalizable.

Por tanto, las sílabas fueron la elección de nuestros tokens. Además, como el chino mandarín, el taiwanés y el hakka son lenguas monosilábicas, la sílaba por sí sola puede contener mucha información sobre el contenido hablado. Esto supone una valiosa mejora de la secuencia de rasgos porque es competente para incorporar rasgos dependientes de la acústica y del contexto. El ZhuYin, la forma más popular de deletrear en Taiwán, se utilizó para definir el espacio de fichas de nuestra secuencia de rasgos. Según el diccionario del Ministerio de Educación de Taiwán, hay 1.339 sílabas diferentes que se escriben en ZhuYin, de las que sólo se conservan 317 tras descartar los marcadores de tono, es decir, ‘, ˇ, `, ˙, y las unidades fonéticas similares, es decir, , para aumentar la capacidad de entrenamiento al disminuir el espacio de tokens; además, la generalizabilidad también aumentaría porque surgirían menos efectos adversos causados por los diferentes acentos porque los diferentes tonos ahora se agrupan y se ven como una sola unidad. También se añade una ficha silenciosa al espacio de fichas. Sin embargo, dado que sólo hay un token que indica silencio en el espacio de tokens, era necesario determinar un umbral para juzgar si un segmento de silencio debía transcribirse a un token de silencio en función de su longitud. Finalmente, el espacio de tokens para la secuencia de características fue de 318.

Generador de secuencias de características

Dados los datos de habla recogidos como entrada, había dos formas de generar la secuencia de características: una se hacía manualmente mediante etiquetado humano mientras que la otra se hacía automáticamente mediante un modelo. El modelo elegido fue una Red Neuronal Recurrente Convolucional (CRNN) entrenada por la pérdida de Clasificación Temporal Conexionista (CTC)31.

Arquitectura del modelo

En nuestro sistema, la entrada del modelo fue la energía del banco de filtros logarítmicos de 80 dimensiones extraída con un tamaño de ventana de 25 ms y un tamaño de salto de 10 ms. Además, se aplicó la normalización de media y varianza cepstral (CMVN)32 para normalizar las energías derivadas. La arquitectura del generador de secuencias de características se inspiró principalmente en el modelo de reconocimiento del habla de última generación evaluado tanto en inglés como en chino mandarín, es decir, el Deep Speech 2 de Baidu, Inc.33. A continuación se resumen algunos de los aspectos más destacados del Deep Speech 2. En primer lugar, una configuración de red neuronal recursiva bidireccional (RNN) mejoraría enormemente el rendimiento del modelo. En segundo lugar, la aplicación de capas de convolución 2D antes de la RNN podría reorganizar el espectrograma mediante el modelado de la invarianza temporal de la traslación y la invarianza espectral y reducir el coste de cálculo de la pérdida CTC mediante la reducción del número de pasos de tiempo. Por último, la aplicación de la normalización por lotes (BN)34 a cada capa aumenta la velocidad de entrenamiento y potencia aún más el rendimiento del modelo. Sin embargo, con los limitados recursos de hardware disponibles, el generador de secuencias de características tenía 3 capas de convolución 2D, seguidas de una RNN bidireccional de 5 capas y, por último, una capa totalmente conectada. Para las capas de convolución, el número de filtros era de 32, 32 y 96 respectivamente, y el tamaño del núcleo de los filtros era de (11, 41), (11, 21) y (11, 21) respectivamente. Para cada capa de la RNN, había 512 células GRU en ambas direcciones. Para la capa totalmente conectada, había 318 (correspondientes al número de clases en el espacio de fichas de la secuencia de características) + 1 (correspondiente a la ficha «en blanco») nodos, y la función de activación es una función softmax. También se aplica BN en las 3 capas de convolución justo antes de la activación. Sin embargo, en lugar de aplicar la BN implementada en Deep Speech 2, se aplica la Normalización de Capas (LN) en las 5 capas de la RNN porque la LN parece ser más adecuada que la BN cuando se trata de aplicaciones de RNN35. El diagrama de bloques del generador de secuencias de características se muestra en la Fig. 2.

Figura 2

El diagrama de bloques del generador de secuencias de características.

Entrenamiento del modelo

Para entrenar el generador de secuencias de características, se recopilaron cuatro conjuntos de datos en chino mandarín, que fueron Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38 y THCHS-3039. En total, se recogieron 307961 casos y 422 horas de datos. La duración media de cada instancia fue de 7 segundos, y todas las instancias de más de 10 segundos se eliminaron del conjunto de entrenamiento porque las secuencias de entrada más largas tienen más posibilidades de enfrentarse al problema de la desaparición y la explosión del gradiente. La retropropagación en el tiempo (BPTT) se llevó a cabo utilizando Adam40 con una tasa de aprendizaje de 0,0005 como optimizador. También se aplicó el recorte de gradiente para estabilizar aún más el entrenamiento, donde el gradiente máximo permitido fue de 400. El tamaño del lote se fijó en 32 durante todo el proceso de entrenamiento, y el modelo se entrenó durante 50000 iteraciones. Todos los pesos se inicializaron utilizando el inicializador normal de Glorot41.

Estrategia de generación de la secuencia de rasgos

La generación de la secuencia de rasgos se realizó generalmente mediante decodificación codiciosa42. Todos los tokens, a excepción del token de silencio, podían generarse seleccionando el que tuviera el máximo rendimiento del modelo en cada paso de tiempo. Para generar el testigo de silencio, se diseñó una heurística sencilla para determinar la longitud del segmento de silencio y generar o no un testigo de silencio en función de la longitud determinada. En primer lugar, el token en blanco emitido por el generador de secuencias de características se trató como un silencio o, al menos, nada significativo. A continuación, sólo un número superior a un determinado umbral de fichas en blanco consecutivas se transcribía a una ficha de silencio. El umbral podía especificarse en términos de segundos, es decir, cuántos segundos debía tener un segmento de silencio para ser tratado como un testigo de silencio. Dado que el tamaño del salto de la entrada era de 10 ms, un testigo de silencio sólo se transcribiría cuando existiera al menos el umbral (en términos de segundos) dividido por 0,01 de testigos de silencio consecutivos. Por ejemplo, dado que el umbral es de 3 segundos, un token de silencio sólo se transcribiría cuando existieran al menos 300 tokens en blanco consecutivos.

Motor de evaluación de la enfermedad de Alzheimer

Dada la secuencia de características como entrada, que contiene implícitamente la información necesaria para la evaluación, la salida fue la puntuación de evaluación de tener EA. Formulamos la puntuación de tener EA con una función de un conjunto de tokens en la Secuencia de Características, como se muestra en la siguiente ecuación:

$$score=f({s}_{1},\\},{s}_{2},\ldots ,\},{s}_{T})\N$
(1)

donde st es el tésimo token en la Secuencia de Características, y T es la longitud máxima de la Secuencia de Características. La puntuación de evaluación es un valor escalar que va de 0 a 1, donde cuanto más alta sea la puntuación de evaluación, mayor será la probabilidad de tener AD. En lugar de crear a mano abundantes características y seleccionar las más significativas mediante un análisis estadístico para entrenar un clasificador, se utiliza una técnica de aprendizaje automático basada en datos para construir nuestro clasificador. El modelo elegido es una RNN.

Arquitectura del modelo

Desde un punto de vista superior, la RNN también puede formularse generalmente como:

$${h}_{t+1},\️,{y}_{t}=RNN({x}_{t},\️,{h}_{t})$$
(2)

donde xt es la entrada del paso de tiempo t, yt es la salida del paso de tiempo t, y ht es el estado oculto de la RNN del paso de tiempo t. Se ajusta perfectamente a nuestro problema, ya que su punto fuerte es el modelado de secuencias. La similitud también puede verse comparando las Ecs. (1) y (2) Creemos que después de que una RNN haya procesado la Secuencia de Características sustituyendo xt en st, la salida de su último paso de tiempo, que también puede verse como un mensaje codificado o un vector de características de toda la secuencia, tendría suficiente información para clasificar a través de una capa totalmente conectada, es decir,

$$score=\sigma (W{y}_{T}+b)$$
(3)

donde yT es la salida de la RNN del último paso de tiempo, W es el peso, b es el sesgo, σ es la función de activación de la capa totalmente conectada, y score es la puntuación de evaluación de tener AD.

Con datos limitados a mano, la arquitectura del motor de evaluación de EA está diseñada para ser lo más ligera posible para aumentar la capacidad de entrenamiento y disminuir la posibilidad de sobreajuste limitando su capacidad. Finalmente, se trata de una RNN bidireccional de una sola capa con 128 celdas GRU en cada dirección, y la salida del último paso de tiempo en cada dirección se concatena y se alimenta a través de una capa totalmente conectada para generar la salida final, donde es un único valor escalar que va de 0 a 1. La función de activación de la salida GRU es un tanh, y la del control de la puerta GRU y la salida totalmente conectada es una función sigmoide. El diagrama de bloques del motor de evaluación AD se muestra en la Fig. 3.

Figura 3

El diagrama de bloques del motor de evaluación de la EA.

Entrenamiento del modelo

Como la salida del motor de evaluación de la EA se activaba mediante una función sigmoidea, iba de 0 a 1 y podía tratarse como una probabilidad. La etiqueta correspondiente a cada salida era, por tanto, 0 para los sujetos sin EA y 1 para los sujetos con EA. La función de pérdida se definió como la suma de entropía cruzada entre la salida y la etiqueta de todas las muestras de entrenamiento de un lote. La BPTT se lleva a cabo utilizando Adam con una tasa de aprendizaje de 0,001 como optimizador. El tamaño del lote se fija en 16 durante todo el proceso de entrenamiento. Todos los pesos se inicializan utilizando el inicializador normal Glorot41.

Preparación de los datos

El estudio presentado fue aprobado por el Comité de Ética y la Junta de Revisión Institucional del Hospital Universitario Nacional de Taiwán. La recogida de datos y todos los métodos de este estudio se realizaron de acuerdo con las directrices y reglamentos aprobados. Se obtuvo el consentimiento informado por escrito de todos los participantes.

Mandarin_Lu &Conjunto de datos NTU

El corpus Mandarin_Lu del DementiaBank es un conjunto de datos que contiene grabaciones de entrevistas de 52 pacientes con EA en Taiwán43,44. Para que los datos recogidos coincidan con nuestro procedimiento de recogida de datos, éstos se aumentaron manualmente segmentando la respuesta del primer minuto del sujeto. Sólo se seleccionaron 30 sujetos del conjunto de datos porque el resto tenía una duración inferior a un minuto o estaba considerablemente interferido por el entrevistador. Los datos seleccionados incluyen tres pruebas neuropsicológicas, que son una prueba de fluidez de frutas, una prueba de fluidez de localización y una prueba de descripción de imágenes utilizando la imagen de WAB. Siguiendo el procedimiento de recogida de datos indicado anteriormente, se reclutaron por nuestra cuenta otros 30 sujetos sanos desde el punto de vista cognitivo (CH) como grupo de control, con la aprobación de la junta de revisión institucional del Hospital Universitario Nacional de Taiwán. Las pruebas neuropsicológicas utilizadas durante nuestra recopilación son exactamente las mismas que las seleccionadas del corpus Mandarin_Lu. Este conjunto de datos se denomina conjunto de datos NTU. El número de muestras en el conjunto de datos Mandarin_Lu y NTU para la prueba de fluidez de frutas y localización es de 30 y el de la prueba de descripción de imágenes es de 15.

Conjunto de datos NTUH

Aunque se utilizó una combinación del conjunto de datos Mandarin_Lu y el conjunto de datos NTU para el estudio piloto del sistema propuesto, la dificultad general de la tarea no es tan dura porque los dos grupos de pruebas son bastante diferentes entre sí en cuanto a sus capacidades cognitivas. Además, el entorno de grabación y la calidad de la misma también son muy diferentes. Por último, tampoco se tiene acceso al informe médico del sujeto, por lo que no se sabe si se produjeron otras complicaciones junto con la EA. Para superar los puntos débiles del conjunto de datos de Mandarin_Lu y del conjunto de datos de NTU, se reclutaron veinte sujetos más utilizando el procedimiento de recopilación de datos indicado anteriormente, donde 10 sujetos son CH y 10 sujetos son AD. Este conjunto de datos se denomina conjunto de datos NTUH. El diagnóstico de EA leve se basó en los criterios de Alzheimer del NINCDS-ADRDA. Los participantes fueron excluidos si tenían un diagnóstico actual o pasado de un trastorno psiquiátrico, abuso de alcohol o drogas, problemas de aprendizaje, lesión craneal conocida con pérdida de conciencia, hipotiroidismo no tratado, deficiencia de vitamina B12, enajenación metabólica o cualquier impedimento visual o auditivo significativo que impidiera la participación en las pruebas neuropsicológicas. Con 6 pruebas neuropsicológicas por sujeto, hubo 120 muestras de un minuto en total. La Tabla 1 enumera los datos demográficos de los sujetos del conjunto de datos de la NTUH. Los sujetos fueron reclutados por nuestra cuenta como grupo de control bajo una aprobación de la junta de revisión institucional del Hospital Universitario Nacional de Taiwán.

Tabla 1 Información de los sujetos del NTUH Dataset.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.