An Automatic Assessment System for Alzheimer’s Disease Based on Speech Using Feature Sequence Generator and Recurrent Neural Network
System overview
Il y avait principalement trois composants dans notre système : une procédure de collecte de données qui recueillait les données vocales de l’utilisateur, le générateur de séquence de caractéristiques qui transformait les données vocales en séquence de caractéristiques, qui était une nouvelle représentation de caractéristiques proposée dans cette étude, et un moteur d’évaluation de la DA qui générait le score de présence de la DA. L’organigramme du système est présenté dans la figure 1.
Procédure de collecte des données
La procédure de collecte des données de notre système était la suivante. Tout d’abord, l’utilisateur a été instruit sur le formulaire et le déroulement des tests neuropsychologiques ultérieurs en personne. Ensuite, l’utilisateur a été invité à s’asseoir à un bureau sur lequel se trouvaient un microphone et une paire de haut-parleurs. Avec un total de six tests neuropsychologiques sélectionnés par session, la description de chaque test neuropsychologique était diffusée pendant 30 secondes, et était suivie d’une fenêtre de réponse d’une minute. Les données vocales n’étaient enregistrées que pendant cette période d’une minute. Dans l’ensemble, il ne fallait que moins de 10 minutes pour réaliser une session.
Sélection des tests neuropsychologiques
Trois types de tests neuropsychologiques ont été sélectionnés dans notre système, à savoir le test de fluidité19,20,21, le test de description d’images22,23,24 et le test de mémoire logique25,26,27. La sélection s’est faite sur la base de l’évaluation neuropsychologique effectuée dans un contexte clinique et de recherches bien connues sur la MA. Ces tests se sont avérés efficaces pour caractériser les principales caractéristiques de la MA, qui sont toutes des problèmes très différenciables.
Test de fluidité
Le déroulement du test de fluidité était le suivant. Étant donné une catégorie désignée, on demandait au sujet de dire autant de mots différents liés à cette catégorie que possible pendant un temps limité. Par exemple, si la catégorie était animal, les réponses possibles étaient éléphants, tigres, zèbres, etc. Dans notre système, la catégorie des animaux et celle des fruits ont été choisies, et la limite de temps pour chaque catégorie était d’une minute.
Test de description d’image
Le déroulement du test de description d’image était le suivant. Étant donné une image présentée, le sujet était invité à décrire le scénario de l’image de la manière la plus détaillée possible pendant un temps limité. Par exemple, la description suivante était une réponse possible. Voici une photo montrant une soirée typique d’une famille. Papa regarde le baseball et maman tricote une écharpe. L’heure actuelle est …, etc. Dans notre système, une image provenant d’une étude connexe menée au Japon28, qui partage un contexte culturel similaire au nôtre, et une autre provenant de la Western Aphasia Battery (WAB)29 sont choisies. La limite de temps pour chaque image était également d’une minute.
Test de mémoire logique
La procédure du test de mémoire logique était la suivante. Une histoire courte était lue à haute voix aux participants, et après cela, le sujet était invité à se rappeler spontanément l’histoire aussi précise que possible. Dans notre système, deux histoires de l’échelle de mémoire de Wechsler III (WMS-III)30 ont été incluses pour l’analyse. Bien qu’il n’y ait pas de limite de temps pour les tests de mémoire logique dans une configuration clinique, une limite de temps d’une minute a tout de même été appliquée dans notre système par souci de cohérence.
Représentation des caractéristiques – séquence de caractéristiques
À la différence d’une grande partie de la littérature existante12,13,14,15,16,17,18, notre objectif était de concevoir une représentation qui pourrait implicitement incarner des caractéristiques toutes à la fois. Nous sommes arrivés à une séquence de jetons, où chaque jeton est responsable de la représentation d’un élément unique du discours. Avec une telle représentation, la pause peut être identifiée par un jeton de silence ou un jeton de pause rempli, la répétition peut être identifiée par des jetons qui reviennent tout au long de la séquence, et la disfluence peut être identifiée par l’alternance entre les jetons de silence et les autres jetons. En plus de ces trois caractéristiques clés, de nombreuses autres caractéristiques dérivées utiles discutées dans la littérature existante13 peuvent également être identifiées. Par exemple, la longueur et la vitesse du discours sont toutes deux proportionnelles au nombre de tokens dans la séquence. Même certaines caractéristiques dépendant du contexte, telles que le nombre de mots uniques et de mots à basse fréquence, peuvent être déduites de la distribution des jetons, car chaque jeton peut être une approximation assez proche d’un mot spécifique. Grâce à ces propriétés, notre modèle est tout à fait capable de représenter le discours des patients atteints de la maladie d’Alzheimer, ce qui en fait un excellent candidat pour des tâches telles que la détection et l’évaluation de cette maladie. La séquence de tokens est appelée séquence caractéristique dans le contenu suivant.
Pour répondre aux critères de la séquence caractéristique, les tokens candidats possibles étaient des phonèmes, des syllabes, des mots, des énoncés, etc. Les principaux critères de sélection du candidat optimal étaient l’adéquation, l’aptitude à la formation et la généralisation. L’adéquation était la mesure dans laquelle les jetons pouvaient manifester les caractéristiques clés de manière appropriée. Cela a exclu les phonèmes, car il s’agit des unités minimales de la parole, et il y aurait donc beaucoup de jetons récurrents, ce qui pourrait être trompeur pour identifier les répétitions, car ils peuvent provenir du même mot ou de mots différents. La capacité d’entraînement est la possibilité de construire un classificateur pour l’évaluation de la MA sur la base de la séquence de caractéristiques et d’un générateur automatique de séquence de caractéristiques. Les énoncés ont été exclus car il était impossible de recueillir suffisamment de données d’entraînement. Enfin, la généralisabilité consistait à déterminer dans quelle mesure les tokens pouvaient intégrer les dialectes régionaux et l’usage mixte des langues à Taiwan. Le mot a été exclu, car il n’existe même pas de forme écrite officielle pour le taïwanais et le hakka. D’autre part, les syllabes du chinois mandarin, du taïwanais et du hakka sont très similaires, ce qui les rendait généralisables.
Par conséquent, les syllabes ont été le choix de nos tokens. De plus, le chinois mandarin, le taïwanais et le hakka étant une langue monosyllabique, la syllabe seule peut contenir beaucoup d’informations sur le contenu parlé. Il s’agit d’une mise à niveau précieuse de la séquence de caractéristiques, car elle était compétente pour incarner des caractéristiques dépendant à la fois de l’acoustique et du contexte. Le ZhuYin, l’orthographe la plus populaire à Taiwan, a été utilisé pour définir l’espace token de notre séquence de caractéristiques. Selon le dictionnaire maintenu par le ministère de l’Éducation de Taïwan, il existe 1339 syllabes différentes orthographiées en ZhuYin, et seulement 317 d’entre elles sont retenues après avoir écarté les marqueurs de tonalité, c’est-à-dire ‘, ˇ, `, ˙, et les unités phonétiques similaires, c’est-à-dire, , afin d’augmenter la capacité d’entraînement en diminuant l’espace des jetons ; de plus, la capacité de généralisation serait également augmentée parce que moins d’effets indésirables causés par des accents différents se produiraient parce que les différents tons sont maintenant regroupés et considérés comme une seule unité. Un jeton de silence est également ajouté à l’espace de jetons. Cependant, comme il n’y a qu’un seul jeton indiquant le silence dans l’espace des jetons, il fallait déterminer un seuil pour juger si un segment de silence devait être transcrit en jeton de silence en fonction de sa longueur. Finalement, l’espace token pour la séquence caractéristique était de 318.
Générateur de séquence caractéristique
Donné les données vocales collectées comme entrée, il y avait deux façons de générer la séquence caractéristique : l’une était faite manuellement par étiquetage humain tandis que l’autre était faite automatiquement par un modèle. Le modèle choisi était un réseau neuronal récurrent convolutif (CRNN) entraîné par la perte de classification temporelle connexionniste (CTC)31.
Architecture du modèle
Dans notre système, l’entrée du modèle était l’énergie du banc de filtre logarithmique à 80 dimensions extraites avec une taille de fenêtre de 25 ms et une taille de saut de 10 ms. De plus, la normalisation de la moyenne et de la variance cepstrale (CMVN)32 a été appliquée pour normaliser les énergies dérivées. L’architecture du générateur de séquences de caractéristiques a été principalement inspirée par le modèle de reconnaissance vocale de bout en bout le plus avancé, évalué sur l’anglais et le chinois mandarin, à savoir Deep Speech 2 de Baidu, Inc.33. Les principaux points forts de Deep Speech 2 sont résumés ci-dessous. Premièrement, une configuration bidirectionnelle de réseau neuronal récurrent (RNN) améliorerait considérablement les performances du modèle. Ensuite, l’application de couches de convolution 2D avant le RNN pourrait réorganiser le spectrogramme en modélisant l’invariance de la traduction temporelle et l’invariance spectrale et réduire le coût de calcul de la perte CTC en réduisant le nombre de pas de temps. Enfin, l’application de la normalisation par lots (BN)34 à chaque couche augmente la vitesse d’apprentissage et améliore encore les performances du modèle. Cependant, compte tenu des ressources matérielles limitées, le générateur de séquences de caractéristiques comportait 3 couches de convolution 2D, suivies d’un RNN bidirectionnel à 5 couches et enfin d’une couche entièrement connectée. Pour les couches de convolution, le nombre de filtres était de 32, 32 et 96 respectivement, la taille du noyau des filtres était de (11, 41), (11, 21) et (11, 21) respectivement. Pour chaque couche du RNN, il y avait 512 cellules GRU dans les deux directions. Pour la couche entièrement connectée, il y avait 318 nœuds (correspondant au nombre de classes dans l’espace des jetons de la séquence de caractéristiques) + 1 (correspondant au jeton « vide »), et la fonction d’activation est une fonction softmax. BN est également appliqué dans les 3 couches de convolution juste avant l’activation. Cependant, plutôt que d’appliquer la BN implémentée dans Deep Speech 2, la normalisation de couche (LN) est appliquée dans les 5 couches RNN car la LN semble être plus appropriée que la BN lorsqu’il s’agit d’applications RNN35. Le schéma fonctionnel du générateur de séquences de caractéristiques est présenté dans la figure 2.
Formation du modèle
Pour former le Feature Sequence Generator, quatre jeux de données en chinois mandarin ont été collectés, à savoir Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38 et THCHS-3039. Cela a donné un total de 307961 instances et 422 heures de données. La durée moyenne de chaque instance était de 7 secondes, et toutes les instances de plus de 10 secondes ont été supprimées de l’ensemble d’entraînement car les séquences d’entrée plus longues ont plus de chances d’être confrontées au problème de la disparition et de l’explosion du gradient. La rétro-propagation dans le temps (BPTT) a été réalisée en utilisant Adam40 avec un taux d’apprentissage de 0,0005 comme optimiseur. L’écrêtage du gradient a également été appliqué pour stabiliser davantage la formation, le gradient maximal autorisé étant de 400. La taille du lot a été fixée à 32 tout au long du processus de formation, et le modèle a été formé pendant 50 000 itérations. Tous les poids ont été initialisés à l’aide de l’initialisateur normal de Glorot41.
Stratégie de génération de la séquence de caractéristiques
La génération de la séquence de caractéristiques a généralement été effectuée par décodage glouton42. Tous les tokens, à l’exception du token silence, ont pu être générés en sélectionnant celui qui avait la sortie maximale du modèle à chaque pas de temps. Afin de générer le jeton de silence, une heuristique simple a été conçue pour déterminer la longueur du segment de silence et si un jeton de silence doit être généré en fonction de la longueur déterminée. Tout d’abord, le jeton vide généré par le Feature Sequence Generator a été traité comme un silence ou du moins comme un élément non significatif. Ensuite, seul un nombre supérieur à un certain seuil de jetons vides consécutifs est transcrit en un jeton de silence. Le seuil peut être spécifié en termes de secondes, c’est-à-dire combien de secondes doit durer un segment de silence pour être traité comme un jeton de silence. La taille du saut de l’entrée étant de 10 ms, un jeton de silence ne serait transcrit que lorsqu’il existe au moins le seuil (en termes de secondes) divisé par 0,01 de jetons vides consécutifs. Par exemple, étant donné que le seuil est de 3 secondes, un token de silence ne serait transcrit que lorsqu’il existe au moins 300 tokens blancs consécutifs.
Moteur d’évaluation de la maladie d’Alzheimer
Donné la séquence de caractéristiques comme entrée, qui contient implicitement les informations nécessaires à l’évaluation, la sortie était le score d’évaluation d’avoir AD. Nous avons formulé le score d’avoir AD avec une fonction d’un ensemble de tokens dans la séquence de caractéristiques, comme indiqué dans l’équation suivante :
où st est le tième token dans la séquence de caractéristiques, et T est la longueur maximale de la séquence de caractéristiques. Le score d’évaluation est une valeur scalaire allant de 0 à 1, où plus le score d’évaluation est élevé, plus la probabilité d’avoir une DA est élevée. Au lieu d’élaborer à la main de nombreuses caractéristiques et de sélectionner celles qui sont significatives via une analyse statistique pour former un classificateur, nous utilisons une technique d’apprentissage automatique basée sur les données pour construire notre classificateur. Le modèle de choix est un RNN.
Architecture du modèle
D’un point de vue plus élevé, le RNN peut également être généralement formulé comme :
où xt est l’entrée de l’étape temporelle t, yt est la sortie de l’étape temporelle t, et ht est l’état caché du RNN de l’étape temporelle t. Il est parfaitement adapté à notre problème puisque sa force est la modélisation des séquences. La similitude peut également être constatée en comparant les équations (1) et (2). (1) et (2) Nous pensons qu’après qu’un RNN ait traité la séquence de caractéristiques en substituant xt dans st, la sortie de sa dernière étape temporelle, qui peut également être considérée comme un message codé ou un vecteur de caractéristiques de la séquence entière, aurait suffisamment d’informations pour la classification par une couche entièrement connectée, c’est-à-dire,
où yT est la sortie RNN de l’étape temporelle finale, W est le poids, b est le biais, σ est la fonction d’activation de la couche entièrement connectée, et score est le score d’évaluation d’avoir AD.
Avec seulement des données limitées à portée de main, l’architecture du moteur d’évaluation de la DA est conçue pour être aussi légère que possible afin d’augmenter la capacité de formation et de diminuer le risque de surajustement en limitant sa capacité. Finalement, il s’agit d’un RNN bidirectionnel à une seule couche avec 128 cellules GRU dans chaque direction, et la sortie du dernier pas de temps dans chaque direction est concaténée et alimentée par une couche entièrement connectée pour générer la sortie finale, qui est une valeur scalaire unique allant de 0 à 1. La fonction d’activation de la sortie GRU est une tanh, et celle de la commande de porte GRU et de la sortie entièrement connectée est une fonction sigmoïde. Le schéma fonctionnel du moteur d’évaluation AD est présenté à la figure 3.
Formation du modèle
Comme la sortie du moteur d’évaluation de la MA était activée par une fonction sigmoïde, elle va de 0 à 1 et pouvait être traitée comme une probabilité. L’étiquette correspondante pour chaque sortie était donc 0 pour les sujets sans MA et 1 pour les sujets avec MA. La fonction de perte a été définie comme la somme des entropies croisées entre la sortie et le label de tous les échantillons d’entraînement d’un lot. Le TPP est réalisé en utilisant Adam avec un taux d’apprentissage de 0,001 comme optimiseur. La taille du lot est fixée à 16 tout au long du processus de formation. Tous les poids sont initialisés en utilisant l’initialisateur normal Glorot41.
Préparation des données
L’étude présentée a été approuvée par le comité d’éthique et le conseil d’examen institutionnel de l’hôpital de l’Université nationale de Taïwan. La collecte des données et toutes les méthodes de cette étude ont toutes été réalisées conformément aux directives et règlements approuvés. Un consentement éclairé écrit a été obtenu de tous les participants.
Mandarin_Lu &Ensemble de données NTU
Le corpus Mandarin_Lu de la DementiaBank est un ensemble de données contenant des enregistrements d’entretiens de 52 patients atteints de la MA à Taïwan43,44. Afin de correspondre aux données collectées à l’aide de notre procédure de collecte de données, les données ont été augmentées manuellement en segmentant la réponse de la première minute du sujet. Seuls 30 sujets de l’ensemble de données ont été sélectionnés car le reste était soit plus court qu’une minute, soit considérablement perturbé par l’intervieweur. Les données sélectionnées comprennent trois tests neuropsychologiques, à savoir un test de fluidité des fruits, un test de fluidité des lieux et un test de description d’image utilisant l’image du WAB. En utilisant la procédure de collecte de données mentionnée ci-dessus, 30 autres sujets en bonne santé cognitive (CH) ont été recrutés par nos soins en tant que groupe témoin, avec l’approbation du conseil d’examen institutionnel de l’hôpital de l’Université nationale de Taiwan. Les tests neuropsychologiques utilisés lors de notre collecte sont exactement les mêmes que ceux sélectionnés dans le corpus Mandarin_Lu. Ce jeu de données est appelé jeu de données NTU. Le nombre d’échantillons dans les ensembles de données Mandarin_Lu et NTU pour le test de fluence de fruit et de localisation est de 30 et celui pour le test de description d’image est de 15.
Ensemble de données NTUH
Bien qu’une combinaison de l’ensemble de données Mandarin_Lu et de l’ensemble de données NTU ait été utilisée pour l’étude pilote du système proposé, la difficulté globale de la tâche n’est pas aussi difficile car les deux groupes de test sont assez différents les uns des autres en termes de capacités cognitives. De plus, l’environnement d’enregistrement et la qualité de l’enregistrement sont également très différents. Enfin, il n’y a pas non plus d’accès au rapport médical du sujet, il n’est donc pas certain que d’autres complications soient survenues en plus de la MA. Pour surmonter les faiblesses des ensembles de données Mandarin_Lu et NTU, vingt sujets ont été recrutés en suivant la procédure de collecte de données décrite ci-dessus, dont 10 sont des sujets CH et 10 des sujets AD. Cet ensemble de données est appelé ensemble de données NTUH. Le diagnostic de la MA légère était basé sur les critères d’Alzheimer de NINCDS-ADRDA. Les participants ont été exclus s’ils présentaient un diagnostic actuel ou passé de trouble psychiatrique, d’abus d’alcool ou de drogues, de difficultés d’apprentissage, de traumatisme crânien connu avec perte de conscience, d’hypothyroïdie non traitée, de carence en vitamine B12, de dérèglement métabolique ou de toute déficience visuelle ou auditive significative empêchant la participation aux tests neuropsychologiques. Avec 6 tests neuropsychologiques par sujet, il y a eu 120 échantillons d’une minute au total. Le tableau 1 présente les données démographiques des sujets de l’ensemble de données NTUH. Les sujets ont été recrutés par nos soins en tant que groupe témoin sous l’approbation du conseil d’examen institutionnel de l’hôpital universitaire national de Taïwan.