An Automatic Assessment System for Alzheimer’s Disease Based on Speech Using Feature Sequence Generator and Recurrent Neural Network

System overview

Er waren hoofdzakelijk drie componenten in ons systeem: een gegevensverzamelingsprocedure die de spraakgegevens van de gebruiker verzamelde, de Feature Sequence Generator die de spraakgegevens omzette in de Feature Sequence, die een nieuwe kenmerkrepresentatie was die in deze studie werd voorgesteld, en een AD Assessment Engine die de score van het hebben van AD genereerde. Het stroomschema van het systeem wordt getoond in Fig. 1.

Figuur 1

Het stroomschema van het systeem.

Gegevensverzamelingsprocedure

Gegevensverzamelingsprocedure van ons systeem was als volgt. Eerst werd de gebruiker persoonlijk geïnstrueerd over het formulier en het verloop van de daaropvolgende neuropsychologische tests. Vervolgens werd de gebruiker gevraagd plaats te nemen achter een bureau met daarop een microfoon en een paar luidsprekers. Met een totaal van zes geselecteerde neuropsychologische tests per sessie, werd de beschrijving van elke neuropsychologische test gedurende 30 seconden afgespeeld, en gevolgd door een antwoordvenster van 1 minuut. Spraakgegevens werden alleen opgenomen tijdens die periode van één minuut. In totaal duurde het minder dan 10 minuten om een sessie te voltooien.

Neuropsychologische testselectie

Drie soorten neuropsychologische tests werden geselecteerd in ons systeem, dat waren de vloeiendheidstest19,20,21, de beeldbeschrijvingstest22,23,24, en de logische geheugentest25,26,27. De selectie was gebaseerd op de neuropsychologische beoordeling die in een klinische setting werd uitgevoerd en op bekend onderzoek naar AD. Deze tests waren effectief gebleken in het karakteriseren van de belangrijkste kenmerken van AD, die alle zeer differentieerbare problemen waren.

Fluentietest

De werkwijze van de fluentietest was als volgt. Gegeven een aangewezen categorie, werd de proefpersoon gevraagd om zoveel mogelijk verschillende woorden gerelateerd aan die categorie te zeggen gedurende een beperkte tijd. Bijvoorbeeld, als de categorie dieren was, waren de mogelijke antwoorden olifanten, tijgers, zebra’s, enz. In ons systeem werden de categorie dieren en fruit gekozen, en de tijdslimiet voor elke categorie was één minuut.

Plaatje-beschrijvingstest

De werkwijze van de plaatje-beschrijvingstest was als volgt. Gegeven een gepresenteerde afbeelding, werd de proefpersoon gevraagd om het scenario in de afbeelding zo gedetailleerd mogelijk te beschrijven gedurende een beperkte tijd. Bijvoorbeeld, de volgende beschrijving was een mogelijk antwoord. Dit is een foto van een typische avond van een gezin. Papa kijkt honkbal, en mama breit een sjaal. De huidige tijd is …, enz. In ons systeem werd een afbeelding gekozen uit een verwante studie uitgevoerd in Japan28 , die een gelijkaardige culturele achtergrond had als wij, en een andere uit de Western Aphasia Battery (WAB)29 . De tijdslimiet voor elke foto was ook één minuut.

Logische geheugentest

De procedure van de logische geheugentest was als volgt. Een kort verhaal werd hardop aan de deelnemers voorgelezen, en daarna werd de proefpersoon gevraagd zich het verhaal spontaan zo precies mogelijk voor de geest te halen. In ons systeem werden twee verhalen van de Wechsler Memory Scale III (WMS-III)30 opgenomen voor analyse. Hoewel er geen tijdslimiet was voor logische geheugentests in een klinische opstelling, werd in ons systeem toch een tijdslimiet van één minuut toegepast omwille van de consistentie.

Feature representation – feature sequence

In tegenstelling tot veel van de bestaande literatuur12,13,14,15,16,17,18, was ons doel om een representatie te ontwerpen die impliciet alle features tegelijk kon belichamen. Wat we bedachten was een opeenvolging van tokens, waarbij elke token verantwoordelijk was voor het vertegenwoordigen van een uniek element in de toespraak. Met behulp van een dergelijke representatie kan pauzeren worden geïdentificeerd door een stilteteken of een gevuld pauzeteken, herhalen kan worden geïdentificeerd door tokens die in de hele sequentie terugkeren, en disfluency kan worden geïdentificeerd door het afwisselend voorkomen van stiltetekens en andere tokens. Naast deze drie hoofdkenmerken kunnen ook vele andere nuttige afgeleide kenmerken worden geïdentificeerd die in de bestaande literatuur13 worden besproken. De lengte en snelheid van de spraak waren bijvoorbeeld evenredig met het aantal tokens in de sequens. Zelfs sommige van de context-afhankelijke kenmerken, zoals het aantal unieke woorden en laag-frequente woorden, konden worden afgeleid uit de verdeling van de tokens, omdat elk token een vrij goede benadering kan zijn van een specifiek woord. Deze eigenschappen maakten ons ontwerp volledig in staat om de spraak van AD patiënten weer te geven, wat een uitstekende kandidaat was voor taken als detectie en beoordeling van AD. De opeenvolging van tokens wordt in de volgende inhoud de Feature Sequence genoemd.

Om aan de criteria van de Feature Sequence te voldoen, waren de mogelijke kandidaat tokens fonemen, lettergrepen, woorden, uitingen, etc. De primaire overweging bij het selecteren van de optimale kandidaat was geschiktheid, trainbaarheid, en generaliseerbaarheid. Geschiktheid was de mate waarin de tokens de hoofdkenmerken konden vertonen. Dit sloot fonemen uit, omdat het de kleinste spraakeenheden zijn, zodat er veel terugkerende tokens zouden zijn, wat misleidend zou kunnen zijn bij het identificeren van herhalingen, omdat die ofwel van hetzelfde woord ofwel van verschillende woorden afkomstig zouden kunnen zijn. De trainbaarheid was de mate waarin het haalbaar was om een classificator voor AD beoordeling te bouwen op basis van de Feature Sequence en een automatische Feature Sequence generator. Dit sloot uitspraken uit omdat het onmogelijk was voldoende trainingsgegevens te verzamelen. Ten slotte was generaliseerbaarheid de vraag hoe goed de tokens regionale dialecten en het gebruik van verschillende talen in Taiwan konden omvatten. Dit sloot woord uit omdat er niet eens een officiële geschreven vorm is voor Taiwanees en Hakka. Aan de andere kant lijken de lettergrepen van het Mandarijn Chinees, Taiwanees en Hakka erg op elkaar, wat het generaliseerbaar maakte.

Daarom waren lettergrepen de keuze van onze tokens. Bovendien, als Mandarijn Chinees, Taiwanees, en Hakka zijn een eenlettergrepige taal, lettergreep alleen kan veel informatie bevatten over de gesproken inhoud. Dit is een waardevolle verbetering van de Feature Sequence omdat het in staat was om zowel akoestisch-afhankelijke als context-afhankelijke kenmerken te belichamen. ZhuYin, de meest populaire spelling in Taiwan, werd gebruikt om de tokenruimte voor onze Feature Sequence te definiëren. Volgens het woordenboek van het Taiwanese Ministerie van Onderwijs zijn er 1339 verschillende lettergrepen gespeld in ZhuYin, en daarvan zijn er slechts 317 overgebleven na het weglaten van toonsoorten, d.w.z. ´, ˇ, `, ˙, en soortgelijke fonetische eenheden, d.w.z., , om de trainbaarheid te vergroten door de tokenruimte te verkleinen; bovendien zou de generaliseerbaarheid ook toenemen omdat er minder nadelige effecten zouden ontstaan door verschillende accenten, omdat verschillende tonen nu gegroepeerd werden en als een enkele eenheid werden gezien. Een stille token wordt ook aan de tokenruimte toegevoegd. Omdat er in de tokenruimte echter maar één token is die stilte aangeeft, moest er een drempel worden bepaald om te beoordelen of een stiltesegment moet worden getranscribeerd naar een stiltetoken op basis van de lengte. Uiteindelijk werd de tokenruimte voor de Feature Sequence 318.

Feature Sequence generator

Gegeven de verzamelde spraakgegevens als invoer, waren er twee manieren om de Feature Sequence te genereren: de ene werd handmatig gedaan door menselijke labeling, terwijl de andere automatisch werd gedaan door een model. Het model van keuze was een Convolutioneel Recurrent Neuraal Netwerk (CRNN) getraind door Connectionist Temporal Classification (CTC) verlies31.

Model architectuur

In ons systeem, de input van het model was de 80-dimensionale log filterbank energie geëxtraheerd met een venster grootte van 25 ms en een hop grootte van 10 ms. Bovendien werd Cepstral Mean and Variance Normalization (CMVN)32 toegepast om de afgeleide energieën te normaliseren. De architectuur van de Feature Sequence Generator is grotendeels geïnspireerd op het state-of-the-art end-to-end spraakherkenningsmodel dat zowel op Engels als Mandarijn Chinees is geëvalueerd, namelijk Deep Speech 2 van Baidu, Inc.33. Enkele belangrijke kenmerken van Deep Speech 2 kunnen als volgt worden samengevat. Ten eerste, een bidirectioneel Recurrent Neural Network (RNN) setup zou de prestaties van het model enorm verbeteren. Ten tweede, toepassing van 2D convolutie lagen voorafgaand aan het RNN zou kunnen reorganiseren het spectrogram door het modelleren van de temporele vertaling invariantie en de spectrale invariantie en vermindering van de berekening kosten van CTC verlies door het schalen van het aantal timesteps. Tenslotte verhoogt het toepassen van Batch Normalisatie (BN)34 op elke laag de trainingssnelheid en verbetert het de prestaties van het model. Echter, met beperkte hardware middelen bij de hand, had de Feature Sequence Generator 3 2D-Convolutionele lagen, gevolgd door een 5-lagige bidirectionele RNN, en tenslotte een volledig-verbonden laag. Voor de Convolutielagen bedroeg het aantal filters respectievelijk 32, 32 en 96, en de kernelgrootte van de filters respectievelijk (11, 41), (11, 21), en (11, 21). Voor elke laag van het RNN waren er 512 GRU-cellen in beide richtingen. Voor de volledig aangesloten laag waren er 318 (komt overeen met het aantal klassen in de tokenruimte van de Feature Sequence) + 1 (komt overeen met het “blanco” token) knooppunten, en de activeringsfunctie is een softmax-functie. BN wordt ook toegepast in alle 3 convolutielagen vlak voor de activering. In plaats van BN toe te passen, zoals geïmplementeerd in Deep Speech 2, wordt echter Layer Normalization (LN) toegepast in alle 5 RNN lagen, omdat LN geschikter lijkt dan BN wanneer het gaat om RNN toepassingen35. Het blokschema van de Feature Sequence Generator wordt getoond in Fig. 2.

Figuur 2

Het blokschema van de Feature Sequence Generator.

Modeltraining

Om de Feature Sequence Generator te trainen, werden vier datasets in het Mandarijn Chinees verzameld, namelijk Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38, en THCHS-3039. In totaal ging het om 307961 instanties en 422 uur aan gegevens. De gemiddelde duur van elke instantie was 7 seconden, en alle instanties langer dan 10 seconden werden uit de trainingsset verwijderd omdat langere inputsequenties een grotere kans hebben op het probleem van verdwijnende en exploderende gradiënten. Backpropagation through time (BPTT) werd uitgevoerd met Adam40 met een leersnelheid van 0.0005 als optimizer. Gradient clipping werd ook toegepast om de training verder te stabiliseren, waarbij de maximaal toelaatbare gradiënt 400 was. De batchgrootte werd gedurende het hele trainingsproces op 32 gezet, en het model werd getraind voor 50000 iteraties. Alle gewichten werden geïnitialiseerd met behulp van Glorot normal initializer41.

Feature sequence generation strategy

Het genereren van de Feature Sequence werd over het algemeen gedaan door greedy decoding42. Alle tokens, behalve de stiltetoken, konden worden gegenereerd door de token te selecteren die bij elke tijdstap de maximale modeluitvoer had. Voor het genereren van de stilteteken werd een eenvoudige heuristiek ontworpen om de lengte van het stiltesegment te bepalen en om op basis van de bepaalde lengte al dan niet een stilteteken te genereren. Eerst werd de lege token die door de Feature Sequence Generator werd uitgevoerd, behandeld als een stilte of op zijn minst niets van betekenis. Vervolgens werd alleen een aantal boven een bepaalde drempel van opeenvolgende blanco tokens getranscribeerd naar een stilte token. De drempel kon worden gespecificeerd in termen van seconden, d.w.z. hoeveel seconden een stilte segment moet zijn om te worden behandeld als een stilte token. Omdat de hop-grootte van de invoer 10 ms was, zou een stilte-teken alleen worden getranscribeerd als er ten minste de drempel (in termen van seconden) gedeeld door 0,01 van opeenvolgende blanco tokens bestaat. Bijvoorbeeld, gegeven dat de drempel 3 seconden is, zou een stilteteken alleen worden getranscribeerd als er ten minste 300 opeenvolgende blanco tokens bestaan.

Alzheimer’s disease assessment engine

Gegeven de Feature Sequence als invoer, die impliciet de noodzakelijke informatie voor beoordeling bevat, was de uitvoer de beoordelingsscore van het hebben van AD. We formuleerden de score van het hebben van AD met een functie van een reeks tokens in de Feature Sequence, zoals weergegeven in de volgende vergelijking:

$$score=f({s}_{1},{s}_{2},\,\ldots,\,{s}_{T})\in $$
(1)

waar st het t-de token in de Feature Sequence is, en T de maximale lengte van de Feature Sequence is. De beoordelingsscore is een scalaire waarde die varieert van 0 tot 1, waarbij geldt dat hoe hoger de beoordelingsscore is, hoe groter de kans is dat er sprake is van AD. In plaats van met de hand een overvloed aan kenmerken te bepalen en achteraf de significante kenmerken te selecteren via statistische analyse om een classificator te trainen, wordt een gegevensgestuurde techniek voor machinaal leren gebruikt om onze classificator op te bouwen. Het model van keuze is een RNN.

Model architectuur

Op een hoger niveau, kan RNN ook algemeen worden geformuleerd als:

$${h}_{t+1},\,{y}_{t}=RNN({x}_{t},\,{h}_{t})$$
(2)

waarbij xt de input van timestep t is, yt de output van timestep t is, en ht de verborgen toestand van het RNN van timestep t is. Het RNN past perfect in ons probleem, omdat het sterk is in het modelleren van reeksen. De overeenkomst kan ook worden gezien door vergelijking van de formules (1) en (2) Wij geloven dat nadat een RNN de Feature Sequence heeft verwerkt door xt in st te substitueren, de output van zijn laatste timestep, die ook kan worden gezien als een gecodeerde boodschap of een feature vector van de hele sequence, voldoende informatie zou hebben om te classificeren via een volledig aangesloten laag, dat wil zeggen,

$$score=(W{y}_{T}+b)$$
(3)

waarin yT de RNN-output van de laatste tijdstap is, W het gewicht, b de bias, σ de activeringsfunctie van de volledig aangesloten laag, en score de beoordelingsscore van het hebben van AD is.

Met slechts beperkte gegevens ter beschikking, is de architectuur van de AD Assessment Engine ontworpen om zo licht mogelijk te zijn om de trainbaarheid te vergroten en de kans op overfitting te verkleinen door de capaciteit te beperken. Uiteindelijk is het een bidirectioneel RNN van één laag met 128 GRU-cellen in elke richting, en de output van de laatste tijdstap in elke richting wordt samengevoegd en door een volledig verbonden laag gevoerd om de uiteindelijke output te genereren, die een enkele scalaire waarde is, variërend van 0 tot 1. De activeringsfunctie van de GRU-output is een tanh, en die van de GRU-gate control en de volledig verbonden output is een sigmoid-functie. Het blokschema van de AD-beoordelingsmotor is weergegeven in fig. 3.

Figuur 3

Het blokschema van de AD-beoordelingsengine.

Modeltraining

Omdat de output van de AD-beoordelingsengine werd geactiveerd door een sigmoïde functie, varieert deze van 0 tot 1 en kon deze worden behandeld als een waarschijnlijkheid. Het overeenkomstige label voor elke output was dus 0 voor personen zonder AD en 1 voor personen met AD. De verliesfunctie werd gedefinieerd als de som van de kruiselingse entropie tussen de output en het label van alle trainingsmonsters in een batch. BPTT wordt uitgevoerd met Adam met een leersnelheid van 0,001 als de optimizer. De batchgrootte is gedurende het gehele trainingsproces ingesteld op 16. Alle gewichten worden geïnitialiseerd door gebruik te maken van de Glorot normal initializer41.

Data preparation

De gepresenteerde studie werd goedgekeurd door de Ethische Commissie en Institutional Review Board van het National Taiwan University Hospital. Het verzamelen van gegevens en alle methoden in deze studie werden allemaal uitgevoerd in overeenstemming met de goedgekeurde richtlijnen en voorschriften. Schriftelijke geïnformeerde toestemming werd verkregen van alle deelnemers.

Mandarin_Lu & NTU dataset

Mandarin_Lu corpus uit de DementiaBank is een dataset met interviewopnamen van 52 AD-patiënten in Taiwan43,44. Om overeen te komen met de gegevens verzameld met behulp van onze dataverzameling procedure, werden de gegevens handmatig aangevuld door het segmenteren van de eerste minuut antwoord van de proefpersoon. Slechts 30 proefpersonen uit de dataset werden geselecteerd omdat de rest ofwel korter dan een minuut was, ofwel aanzienlijk werd gestoord door de interviewer. De geselecteerde gegevens omvatten drie neuropsychologische tests, namelijk een fruitvloeiendheidstest, een plaatsvloeiendheidstest, en een beeldbeschrijvingstest met gebruikmaking van de foto van WAB. Met behulp van de bovenstaande dataverzamelingsprocedure werden nog eens 30 cognitief gezonde (CH) proefpersonen op eigen houtje gerekruteerd als controlegroep onder goedkeuring van de institutionele beoordelingsraad van het National Taiwan University Hospital. De neuropsychologische tests die we gebruikten tijdens onze verzameling zijn precies dezelfde als die geselecteerd uit het Mandarin_Lu corpus. Deze dataset wordt NTU-dataset genoemd. Het aantal monsters in de Mandarin_Lu en NTU dataset voor zowel de fruit en locatie vloeiendheid test zijn 30 en dat voor de beeld beschrijving test zijn 15.

NTUH Dataset

Hoewel een combinatie van Mandarin_Lu dataset en NTU dataset werd gebruikt om het voorgestelde systeem te pilot-study, de totale moeilijkheidsgraad van de taak is niet zo moeilijk omdat de twee testgroepen zijn heel verschillend van elkaar in termen van hun cognitieve capaciteiten. Bovendien zijn ook de opnameomgeving en de kwaliteit van de opname sterk verschillend. Tenslotte is er ook geen toegang tot het medisch rapport van de proefpersonen, zodat het onzeker is of er naast AD nog andere complicaties zijn opgetreden. Om de zwakke punten van de Mandarin_Lu-dataset en de NTU-dataset te verhelpen, werden twintig proefpersonen verder gerekruteerd volgens de hierboven beschreven procedure voor gegevensverzameling, waarbij 10 proefpersonen CH en 10 proefpersonen AD hebben. Deze dataset wordt NTUH-dataset genoemd. De diagnose van milde AD was gebaseerd op de NINCDS-ADRDA Alzheimer-criteria. Deelnemers werden uitgesloten als ze een huidige of vroegere diagnose hadden van een psychiatrische stoornis, alcohol- of drugsmisbruik, leerstoornissen, bekend hoofdletsel met bewustzijnsverlies, onbehandelde hypothyreoïdie, vitamine B12-deficiëntie, metabole stoornissen, of een significante visuele of auditieve beperking die deelname aan neuropsychologische tests onmogelijk maakte. Met 6 neuropsychologische testen per proefpersoon, waren er in totaal 120 één-minuut testen. Tabel 1 geeft een overzicht van de demografische gegevens van de proefpersonen in de NTUH Dataset. De proefpersonen werden op eigen initiatief gerekruteerd als controlegroep onder goedkeuring van de institutionele beoordelingsraad van het National Taiwan University Hospital.

Tabel 1 Informatie over de proefpersonen in de NTUH-dataset.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.