Ein automatisches Bewertungssystem für die Alzheimer-Krankheit auf der Grundlage von Sprache unter Verwendung eines Feature-Sequence-Generators und eines rekurrenten neuronalen Netzes
Systemübersicht
Unser System bestand hauptsächlich aus drei Komponenten: Eine Datenerfassungsprozedur, die die Sprachdaten des Benutzers sammelte, der Feature Sequence Generator, der die Sprachdaten in die Feature Sequence umwandelte, eine neuartige Feature Repräsentation, die in dieser Studie vorgeschlagen wurde, und eine AD Assessment Engine, die den Score für AD generierte. Das Flussdiagramm des Systems ist in Abb. 1 dargestellt.
Datenerhebungsverfahren
Das Datenerhebungsverfahren unseres Systems war wie folgt. Zunächst wurde der Benutzer persönlich über das Formular und den Ablauf der nachfolgenden neuropsychologischen Tests instruiert. Anschließend wurde der Benutzer gebeten, sich an einen Schreibtisch zu setzen, auf dem ein Mikrofon und ein Paar Lautsprecher angebracht waren. Bei insgesamt sechs ausgewählten neuropsychologischen Tests pro Sitzung wurde die Beschreibung jedes neuropsychologischen Tests 30 Sekunden lang abgespielt, gefolgt von einem Antwortfenster von 1 Minute. Die Sprachdaten wurden nur während dieses einminütigen Zeitraums aufgezeichnet. Insgesamt dauerte eine Sitzung weniger als 10 Minuten.
Auswahl der neuropsychologischen Tests
In unserem System wurden drei Arten von neuropsychologischen Tests ausgewählt, nämlich der Geläufigkeitstest19,20,21, der Bildbeschreibungstest22,23,24 und der Test des logischen Gedächtnisses25,26,27. Die Auswahl basierte auf der neuropsychologischen Bewertung, die in einer klinischen Einrichtung durchgeführt wurde, sowie auf bekannten Forschungsergebnissen zu Alzheimer. Diese Tests hatten sich als wirksam erwiesen, um die Hauptmerkmale der Alzheimer-Krankheit zu charakterisieren, bei denen es sich um sehr differenzierbare Probleme handelte.
Fluency-Test
Der Ablauf des Fluency-Tests war wie folgt. Dem Probanden wurde eine bestimmte Kategorie vorgegeben und er wurde gebeten, so viele verschiedene Wörter, die mit dieser Kategorie zusammenhängen, wie möglich in einer begrenzten Zeit zu sagen. Wenn die Kategorie zum Beispiel Tiere war, waren mögliche Antworten Elefanten, Tiger, Zebras usw. In unserem System wurden die Kategorien Tier und Obst ausgewählt, und das Zeitlimit für jede Kategorie betrug eine Minute.
Bildbeschreibungstest
Der Ablauf des Bildbeschreibungstests war wie folgt. Bei einem vorgelegten Bild wurde die Versuchsperson gebeten, das Szenario auf dem Bild in einer begrenzten Zeit so detailliert wie möglich zu beschreiben. Die folgende Beschreibung war zum Beispiel eine mögliche Antwort. Dies ist ein Bild, das einen typischen Abend einer Familie zeigt. Papa schaut Baseball, und Mama strickt einen Schal. Die aktuelle Zeit ist …, usw. In unserem System wurde ein Bild aus einer verwandten Studie in Japan28, die einen ähnlichen kulturellen Hintergrund wie wir hat, und ein weiteres aus der Western Aphasia Battery (WAB)29 ausgewählt. Das Zeitlimit für jedes Bild betrug ebenfalls eine Minute.
Logischer Gedächtnistest
Der Ablauf des logischen Gedächtnistests war wie folgt. Den Probanden wurde eine kurze Geschichte vorgelesen, anschließend sollten sie sich spontan und so genau wie möglich an die Geschichte erinnern. In unserem System wurden zwei Geschichten der Wechsler Memory Scale III (WMS-III)30 zur Analyse herangezogen. Obwohl es für logische Gedächtnistests im klinischen Umfeld kein Zeitlimit gibt, wurde in unserem System aus Gründen der Konsistenz ein Zeitlimit von einer Minute angewandt.
Merkmalsrepräsentation – Merkmalssequenz
Im Gegensatz zu vielen der bestehenden Literatur12,13,14,15,16,17,18 war es unser Ziel, eine Repräsentation zu entwerfen, die implizit alle Merkmale auf einmal verkörpern kann. Das Ergebnis war eine Sequenz von Token, wobei jedes Token für ein einzelnes Element in der Rede verantwortlich war. Mit einer solchen Darstellung könnten Pausen durch ein Stille-Token oder ein gefülltes Pause-Token identifiziert werden, Wiederholungen durch Token, die in der gesamten Sequenz wiederkehren, und Unflüssigkeit durch das abwechselnde Auftreten von Stille-Token und anderen Token. Neben diesen drei Hauptmerkmalen können auch viele andere nützliche abgeleitete Merkmale, die in der vorhandenen Literatur13 diskutiert werden, identifiziert werden. So waren beispielsweise die Länge und die Geschwindigkeit der Rede proportional zur Anzahl der Token in der Sequenz. Sogar einige der kontextabhängigen Merkmale wie die Anzahl der eindeutigen Wörter und der Wörter mit niedriger Frequenz könnten aus der Verteilung der Token abgeleitet werden, da jedes Token eine ziemlich genaue Annäherung an ein bestimmtes Wort darstellen kann. Aufgrund dieser Eigenschaften war unser Design in der Lage, die Sprache von Alzheimer-Patienten abzubilden, was sich hervorragend für Aufgaben wie die Erkennung und Bewertung von Alzheimer eignete. Die Tokenfolge wird im Folgenden als Feature-Sequenz bezeichnet.
Um die Kriterien der Feature-Sequenz zu erfüllen, kamen Phoneme, Silben, Wörter, Äußerungen usw. in Frage. Bei der Auswahl des optimalen Kandidaten wurden in erster Linie Eignung, Trainierbarkeit und Verallgemeinerbarkeit berücksichtigt. Bei der Eignung ging es darum, inwieweit die Token die Schlüsselmerkmale angemessen wiedergeben können. Dies schloss Phoneme aus, da sie die kleinsten Einheiten der Sprache sind, so dass es viele wiederkehrende Token geben würde, die bei der Identifizierung von Wiederholungen irreführend sein könnten, da sie entweder von demselben Wort oder von verschiedenen Wörtern stammen könnten. Die Trainierbarkeit war die Frage, inwieweit es möglich war, einen Klassifikator für die AD-Bewertung auf der Grundlage der Feature-Sequenz und eines automatischen Feature-Sequenz-Generators zu erstellen. Dies schloss Äußerungen aus, da es unmöglich war, genügend Trainingsdaten zu sammeln. Die Verallgemeinerbarkeit schließlich war die Frage, wie gut die Token regionale Dialekte und den gemischten Sprachgebrauch in Taiwan einbeziehen konnten. Dies schloss Wort aus, da es nicht einmal eine offizielle Schriftform für Taiwanesisch und Hakka gibt. Andererseits sind die Silben des Mandarin-Chinesischen, des Taiwanesischen und des Hakka sehr ähnlich, was eine Verallgemeinerung möglich machte.
Daher wurden die Silben für unsere Token ausgewählt. Da Mandarin-Chinesisch, Taiwanesisch und Hakka eine einsilbige Sprache sind, kann die Silbe allein viele Informationen über den gesprochenen Inhalt enthalten. Dies ist eine wertvolle Erweiterung der Feature Sequence, da sie in der Lage ist, sowohl akustisch abhängige als auch kontextabhängige Features zu verkörpern. ZhuYin, die gängigste Schreibweise in Taiwan, wurde verwendet, um den Tokenraum für unsere Feature Sequence zu definieren. Laut dem Wörterbuch des taiwanesischen Bildungsministeriums gibt es 1339 verschiedene Silben in ZhuYin, von denen nur 317 nach Abzug von Tonmarkern, d.h. ‚, ˇ, `, ˙, und ähnlichen phonetischen Einheiten, d.h., , um die Trainierbarkeit zu erhöhen, indem der Tokenraum verkleinert wird; zusätzlich würde auch die Generalisierbarkeit erhöht, da weniger negative Auswirkungen durch unterschiedliche Akzente auftreten würden, da verschiedene Töne nun gruppiert und als eine einzige Einheit betrachtet würden. Ein stummes Token wird ebenfalls in den Tokenraum aufgenommen. Da es jedoch nur ein Token für Stille im Tokenraum gibt, musste ein Schwellenwert für die Beurteilung, ob ein Stille-Segment in ein Stille-Token umgeschrieben werden sollte, auf der Grundlage seiner Länge festgelegt werden. Letztendlich betrug der Tokenraum für die Feature Sequence 318.
Feature Sequence Generator
Ausgehend von den gesammelten Sprachdaten als Input gab es zwei Möglichkeiten, die Feature Sequence zu generieren: eine erfolgte manuell durch menschliches Labeling, die andere automatisch durch ein Modell. Das Modell der Wahl war ein Convolutional Recurrent Neural Network (CRNN), das durch den Verlust der Connectionist Temporal Classification (CTC) trainiert wurde31.
Modellarchitektur
In unserem System war die Eingabe des Modells die 80-dimensionale log Filterbank-Energie, die mit einer Fenstergröße von 25 ms und einer Sprunggröße von 10 ms extrahiert wurde. Außerdem wurde die Cepstral Mean and Variance Normalization (CMVN)32 angewendet, um die abgeleiteten Energien zu normalisieren. Die Architektur des Feature-Sequenz-Generators wurde hauptsächlich durch das modernste End-to-End-Spracherkennungsmodell inspiriert, das sowohl für Englisch als auch für Mandarin-Chinesisch evaluiert wurde, nämlich Deep Speech 2 von Baidu, Inc.33. Einige der wichtigsten Merkmale von Deep Speech 2 lassen sich wie folgt zusammenfassen. Erstens würde ein bidirektionaler Aufbau eines rekurrenten neuronalen Netzes (RNN) die Leistung des Modells enorm verbessern. Zweitens könnte die Anwendung von 2D-Faltungsschichten vor dem RNN das Spektrogramm durch Modellierung der zeitlichen Translationsinvarianz und der spektralen Invarianz reorganisieren und die Berechnungskosten des CTC-Verlusts durch Verringerung der Anzahl der Zeitschritte reduzieren. Schließlich erhöht die Anwendung von Batch Normalization (BN)34 auf jede Schicht die Trainingsgeschwindigkeit und steigert die Leistung des Modells weiter. Da jedoch nur begrenzte Hardware-Ressourcen zur Verfügung standen, verfügte der Feature-Sequence-Generator über drei 2D-Faltungsschichten, gefolgt von einem fünfschichtigen bidirektionalen RNN und schließlich einer vollständig verbundenen Schicht. Für die Faltungsschichten betrug die Anzahl der Filter 32, 32 bzw. 96, die Kernelgröße der Filter war (11, 41), (11, 21) bzw. (11, 21). Für jede Schicht des RNN gab es 512 GRU-Zellen in beiden Richtungen. Für die voll verknüpfte Schicht gab es 318 (entspricht der Anzahl der Klassen im Token-Raum der Feature-Sequenz) + 1 (entspricht dem „leeren“ Token) Knoten, und die Aktivierungsfunktion ist eine Softmax-Funktion. BN wird auch in allen 3 Faltungsschichten direkt vor der Aktivierung angewendet. Anstelle der in Deep Speech 2 implementierten BN wird jedoch in allen 5 RNN-Schichten die Layer Normalization (LN) angewendet, da LN bei RNN-Anwendungen besser geeignet zu sein scheint als BN35. Das Blockdiagramm des Feature Sequence Generator ist in Abb. 2 dargestellt.
Modelltraining
Um den Feature Sequence Generator zu trainieren, wurden vier Datensätze in Mandarin-Chinesisch gesammelt, nämlich Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38 und THCHS-3039. Insgesamt wurden 307961 Instanzen und 422 Stunden an Daten erfasst. Die durchschnittliche Dauer jeder Instanz betrug 7 Sekunden, und alle Instanzen, die länger als 10 Sekunden dauerten, wurden aus dem Trainingssatz entfernt, da bei längeren Eingabesequenzen das Problem des verschwindenden und explodierenden Gradienten eher auftritt. Backpropagation durch Zeit (BPTT) wurde mit Adam40 und einer Lernrate von 0,0005 als Optimierer durchgeführt. Um das Training weiter zu stabilisieren, wurde auch Gradientenbeschneidung angewendet, wobei der maximal zulässige Gradient 400 betrug. Die Stapelgröße wurde während des gesamten Trainingsprozesses auf 32 festgelegt, und das Modell wurde für 50000 Iterationen trainiert. Alle Gewichte wurden mit dem normalen Glorot-Initialisierer41 initialisiert.
Strategie zur Generierung der Feature-Sequenz
Die Generierung der Feature-Sequenz erfolgte im Allgemeinen durch Greedy-Decodierung42. Alle Token außer dem Stille-Token konnten generiert werden, indem dasjenige ausgewählt wurde, das bei jedem Zeitschritt die höchste Modellleistung aufwies. Um das Stille-Token zu generieren, wurde eine einfache Heuristik entwickelt, um die Länge des Stille-Segments zu bestimmen und anhand der ermittelten Länge zu entscheiden, ob ein Stille-Token generiert werden soll. Zunächst wurde das vom Feature Sequence Generator ausgegebene leere Token als Stille oder zumindest als nicht signifikant behandelt. Dann wurde nur eine Anzahl von aufeinanderfolgenden Leerzeichen, die über einem bestimmten Schwellenwert lag, in ein Stille-Token umgeschrieben. Der Schwellenwert konnte in Sekunden angegeben werden, d. h. wie viele Sekunden sollte ein Stille-Segment lang sein, um als Stille-Token behandelt zu werden. Da die Hop-Größe der Eingabe 10 ms betrug, würde ein Stille-Token nur dann transkribiert werden, wenn es mindestens den Schwellenwert (in Sekunden) geteilt durch 0,01 aufeinanderfolgende leere Token gibt. Wenn der Schwellenwert beispielsweise 3 Sekunden beträgt, wird ein Stille-Token nur dann transkribiert, wenn mindestens 300 aufeinanderfolgende Leer-Token vorhanden sind.
Alzheimer-Krankheit-Bewertungsmaschine
Ausgehend von der Merkmalssequenz als Eingabe, die implizit die notwendigen Informationen für die Bewertung enthält, war die Ausgabe die Bewertungszahl für das Vorliegen von Alzheimer. Wir formulierten die Punktzahl für das Vorliegen von AD mit einer Funktion einer Reihe von Token in der Merkmalssequenz, wie in der folgenden Gleichung dargestellt:
wobei st das t-te Token in der Feature Sequence ist, und T die maximale Länge der Feature Sequence ist. Die Bewertungszahl ist ein skalarer Wert zwischen 0 und 1, wobei die Wahrscheinlichkeit, dass AD vorliegt, umso höher ist, je höher die Bewertungszahl ist. Anstatt eine Fülle von Merkmalen von Hand zu erstellen und anschließend die signifikanten Merkmale mittels statistischer Analyse auszuwählen, um einen Klassifikator zu trainieren, wird für die Erstellung unseres Klassifikators eine datengesteuerte maschinelle Lerntechnik verwendet. Das Modell der Wahl ist ein RNN.
Modellarchitektur
Auf einer höheren Ebene kann ein RNN auch allgemein formuliert werden als:
wobei xt die Eingabe des Zeitschrittes t, yt die Ausgabe des Zeitschrittes t und ht der versteckte Zustand des RNN des Zeitschrittes t ist. Es passt perfekt zu unserem Problem, da seine Stärke die Sequenzmodellierung ist. Die Ähnlichkeit lässt sich auch durch einen Vergleich der Gleichungen (1) und (2) erkennen. (1) und (2). Wir glauben, dass, nachdem ein RNN die Merkmalssequenz durch Ersetzen von xt in st verarbeitet hat, die Ausgabe des letzten Zeitschritts, die auch als kodierte Nachricht oder als Merkmalsvektor der gesamten Sequenz betrachtet werden kann, genügend Informationen für die Klassifizierung durch eine voll verbundene Schicht enthält, das heißt,
wobei yT der RNN-Output des letzten Zeitschrittes, W die Gewichtung, b der Bias, σ die Aktivierungsfunktion der vollverknüpften Schicht und score der Bewertungsscore für AD ist.
Da nur begrenzte Daten zur Verfügung stehen, ist die Architektur der AD-Bewertungsmaschine so leichtgewichtig wie möglich, um die Trainierbarkeit zu erhöhen und die Wahrscheinlichkeit einer Überanpassung durch Begrenzung der Kapazität zu verringern. Letztendlich handelt es sich um ein einschichtiges bidirektionales RNN mit 128 GRU-Zellen in jeder Richtung, und die Ausgabe des letzten Zeitschrittes in jeder Richtung wird verkettet und durch eine vollständig verbundene Schicht geleitet, um die endgültige Ausgabe zu erzeugen, bei der es sich um einen einzelnen skalaren Wert zwischen 0 und 1 handelt. Die Aktivierungsfunktion der GRU-Ausgabe ist eine tanh, und die der GRU-Gate-Steuerung und der vollständig verbundenen Ausgabe ist eine Sigmoidfunktion. Das Blockdiagramm der AD Assessment Engine ist in Abb. 3 dargestellt.
Model Training
Da der Output der AD Assessment Engine durch eine Sigmoidfunktion aktiviert wurde, reicht er von 0 bis 1 und konnte als Wahrscheinlichkeit behandelt werden. Das entsprechende Label für jeden Output war also 0 für Personen ohne AD und 1 für Personen mit AD. Die Verlustfunktion wurde definiert als die Summe der Kreuzentropie zwischen dem Output und dem Label aller Trainingsproben in einer Charge. BPTT wird unter Verwendung von Adam mit einer Lernrate von 0,001 als Optimierer durchgeführt. Die Stapelgröße wird während des gesamten Trainingsprozesses auf 16 gesetzt. Alle Gewichte werden mit dem Glorot-Normalinitialisierer41 initialisiert.
Datenaufbereitung
Die vorliegende Studie wurde von der Ethikkommission und dem Institutional Review Board am National Taiwan University Hospital genehmigt. Die Datenerhebung und alle Methoden in dieser Studie wurden in Übereinstimmung mit den genehmigten Richtlinien und Vorschriften durchgeführt. Von allen Teilnehmern wurde eine schriftliche Einverständniserklärung eingeholt.
Mandarin_Lu & NTU-Datensatz
Mandarin_Lu-Korpus aus der DementiaBank ist ein Datensatz mit Interview-Aufzeichnungen von 52 AD-Patienten in Taiwan43,44. Um die mit unserem Datenerhebungsverfahren gesammelten Daten abzugleichen, wurden die Daten manuell ergänzt, indem die erste Minute der Antwort des Probanden segmentiert wurde. Aus dem Datensatz wurden nur 30 Probanden ausgewählt, da der Rest entweder kürzer als eine Minute war oder durch den Interviewer erheblich gestört wurde. Die ausgewählten Daten umfassen drei neuropsychologische Tests, nämlich einen Test zum flüssigen Erfassen von Früchten, einen Test zum flüssigen Erfassen von Orten und einen Test zur Bildbeschreibung unter Verwendung eines Bildes aus der WAB. Unter Verwendung des oben genannten Datenerhebungsverfahrens wurden weitere 30 kognitiv gesunde Probanden (CH) als Kontrollgruppe rekrutiert, wobei die Genehmigung des institutionellen Prüfungsausschusses des National Taiwan University Hospital vorlag. Die neuropsychologischen Tests, die bei unserer Erhebung verwendet wurden, sind genau die gleichen wie die, die aus dem Mandarin_Lu-Korpus ausgewählt wurden. Dieser Datensatz wird als NTU-Datensatz bezeichnet. Die Anzahl der Proben im Mandarin_Lu- und NTU-Datensatz beträgt sowohl für den Obst- als auch für den Ortsbestimmungstest 30 und für den Bildbeschreibungstest 15.
NTUH-Datensatz
Während eine Kombination aus Mandarin_Lu- und NTU-Datensatz für die Pilotstudie des vorgeschlagenen Systems verwendet wurde, ist die Gesamtschwierigkeit der Aufgabe nicht so hoch, da sich die beiden Testgruppen in Bezug auf ihre kognitiven Fähigkeiten stark voneinander unterscheiden. Darüber hinaus sind auch die Aufnahmeumgebung und die Qualität der Aufnahmen sehr unterschiedlich. Schließlich gibt es auch keinen Zugang zu den medizinischen Berichten der Probanden, so dass ungewiss ist, ob neben der AD noch andere Komplikationen aufgetreten sind. Um die Schwächen des Mandarin_Lu-Datensatzes und des NTU-Datensatzes zu überwinden, wurden zwanzig weitere Probanden mit dem oben beschriebenen Datenerfassungsverfahren rekrutiert, wobei 10 Probanden CH und 10 Probanden AD sind. Dieser Datensatz wird als NTUH-Datensatz bezeichnet. Die Diagnose einer leichten Alzheimer-Krankheit basierte auf den NINCDS-ADRDA-Kriterien für die Alzheimer-Krankheit. Ausgeschlossen wurden Teilnehmer mit aktueller oder früherer Diagnose einer psychiatrischen Störung, Alkohol- oder Drogenmissbrauch, Lernbehinderung, bekannter Kopfverletzung mit Bewusstseinsverlust, unbehandelter Schilddrüsenunterfunktion, Vitamin-B12-Mangel, Stoffwechselstörung oder einer erheblichen Seh- oder Hörbehinderung, die eine Teilnahme an neuropsychologischen Tests ausschloss. Mit 6 neuropsychologischen Tests pro Proband wurden insgesamt 120 einminütige Proben durchgeführt. In Tabelle 1 sind die demografischen Daten der Probanden im NTUH-Datensatz aufgeführt. Die Probanden wurden von uns selbst als Kontrollgruppe rekrutiert, mit Genehmigung des institutionellen Prüfungsausschusses des National Taiwan University Hospital.