An Automatic Assessment System for Alzheimer’s Disease Based on Speech Using Feature Sequence Generator and Recurrent Neural Network

Järjestelmän yleiskuvaus

Järjestelmässämme oli pääasiassa kolme komponenttia: Feature Sequence Generator, joka muutti puhetiedot Feature Sequenceksi, joka oli tässä tutkimuksessa ehdotettu uusi ominaisuuksien esitysmuoto, ja AD Assessment Engine, joka tuotti pisteet AD:n esiintymisestä. Järjestelmän vuokaavio on esitetty kuvassa 1.

Kuva 1

Järjestelmän vuokaavio.

Tiedonkeruumenetelmä

Järjestelmämme tiedonkeruumenetelmä oli seuraava. Ensin käyttäjälle annettiin henkilökohtaisesti ohjeet lomakkeesta ja myöhempien neuropsykologisten testien kulusta. Seuraavaksi käyttäjää pyydettiin istumaan työpöydän ääreen, jonka päällä oli mikrofoni ja kaiuttimet. Yhteensä kuusi valittua neuropsykologista testiä istuntoa kohden, ja kunkin neuropsykologisen testin kuvaus toistettiin 30 sekunnin ajan, minkä jälkeen oli yhden minuutin vastausikkuna. Puhetiedot tallennettiin vain tuon minuutin jakson aikana. Kaiken kaikkiaan istunnon suorittamiseen kului vain alle 10 minuuttia.

Neuropsykologisten testien valinta

Järjestelmässämme valittiin kolmenlaisia neuropsykologisia testejä, jotka olivat sujuvuustestit19,20,21, kuvien kuvaustesti22,23,24 ja loogisen muistin testi25,26,27. Valinta perustui kliinisessä tutkimuksessa tehtyyn neuropsykologiseen arviointiin sekä tunnettuihin Alzheimerin tautia koskeviin tutkimuksiin. Nämä testit olivat osoittautuneet tehokkaiksi kuvaamaan AD:n keskeisiä piirteitä, jotka kaikki olivat hyvin eriytyviä ongelmia.

Sujuva muistitesti

Sujuva muistitesti eteni seuraavasti. Kun koehenkilölle annettiin nimetty kategoria, häntä pyydettiin sanomaan mahdollisimman monta erilaista kyseiseen kategoriaan liittyvää sanaa rajoitetun ajan. Jos kategoria oli esimerkiksi eläin, mahdollisia vastauksia olivat norsut, tiikerit, seeprat jne. Järjestelmässämme valittiin kategoria eläin ja hedelmät, ja aikaraja kullekin kategorialle oli yksi minuutti.

Kuvankuvailutesti

Kuvankuvailutestin eteneminen oli seuraava. Kun annettiin esitetty kuva, koehenkilöä pyydettiin kuvaamaan kuvassa oleva skenaario mahdollisimman yksityiskohtaisesti rajoitetun ajan. Esimerkiksi seuraava kuvaus oli mahdollinen vastaus. Tässä kuvassa on tyypillinen perheilta. Isä katsoo baseballia, ja äiti neuloo huivia. Nykyinen kellonaika on … jne. Järjestelmässämme valitaan kuva, joka on peräisin Japanissa28 tehdystä tutkimuksesta, jonka kulttuuritausta on samanlainen kuin meillä, sekä kuva, joka on peräisin Western Aphasia Battery (WAB)29 -testistä. Kunkin kuvan aikaraja oli myös yksi minuutti.

Loogisen muistin testi

Loogisen muistin testin menettely oli seuraava. Osallistujille luettiin ääneen lyhyt tarina, minkä jälkeen koehenkilöä pyydettiin spontaanisti muistamaan tarina mahdollisimman tarkasti. Järjestelmässämme analyysiin otettiin mukaan kaksi tarinaa Wechsler Memory Scale III (WMS-III)30 -testistä. Vaikka loogisen muistin testeille ei ollut aikarajaa kliinisessä asetelmassa, järjestelmässämme sovellettiin silti yhden minuutin aikarajaa johdonmukaisuuden vuoksi.

Ominaisuuksien representaatio – ominaisuuksien sekvenssi

Toisin kuin monissa olemassa olevassa kirjallisuudessa12,13,14,15,16,17,18, tavoitteenamme oli suunnitella representaatio, joka pystyisi implisiittisesti ilmentämään piirteitä kaikki kerralla. Päädyimme tokenien sekvenssiin, jossa jokaisen tokenin tehtävänä oli edustaa yhtä ainutlaatuista elementtiä puheessa. Tällaisen esityksen avulla tauot voitaisiin tunnistaa hiljaisuusmerkillä tai täytetyllä taukomerkillä, toisto voitaisiin tunnistaa merkillä, joka toistuu koko sekvenssissä, ja epäjatkuvuus voitaisiin tunnistaa hiljaisuusmerkkien ja muiden merkkien vuorottelulla. Näiden kolmen keskeisen ominaisuuden lisäksi voidaan tunnistaa myös monia muita hyödyllisiä johdettuja piirteitä, joista on keskusteltu olemassa olevassa kirjallisuudessa13 . Esimerkiksi puheen pituus ja nopeus olivat molemmat verrannollisia sekvenssin merkkien määrään. Jopa jotkin asiayhteydestä riippuvaiset piirteet, kuten ainutlaatuisen sanan ja matalataajuisen sanan määrä, voidaan mahdollisesti päätellä merkkien jakaumasta, koska jokainen merkki voi olla melko läheinen likiarvo tietylle sanalle. Näiden ominaisuuksien ansiosta mallimme pystyi täysin kuvaamaan AD-potilaiden puhetta, joka oli erinomainen ehdokas AD:n havaitsemisen ja arvioinnin kaltaisiin tehtäviin. Tokenien sekvenssistä käytetään seuraavassa sisällössä nimitystä Feature Sequence.

Edellytysten täyttämiseksi Feature Sequence -kriteerit, mahdollisia tokeniehdokkaita olivat foneemit, tavut, sanat, lausahdukset jne. Optimaalisen ehdokkaan valinnassa ensisijainen näkökohta oli soveltuvuus, koulutettavuus ja yleistettävyys. Soveltuvuudella tarkoitettiin sitä, miten sopivasti merkit voisivat ilmentää keskeisiä ominaisuuksia. Tämä sulki pois foneemit, koska ne ovat puheen pienimpiä yksiköitä, joten niissä olisi paljon toistuvia merkkejä, jotka saattaisivat olla harhaanjohtavia toistuvien merkkien tunnistamisessa, koska ne voisivat olla peräisin joko samasta sanasta tai eri sanoista. Koulutettavuudella tarkoitettiin sitä, kuinka mahdollista oli rakentaa luokittimen AD-arviointia varten Feature-sekvenssin ja automaattisen Feature-sekvenssigeneraattorin perusteella. Tämä sulki pois ääneen lausumisen, koska oli mahdotonta kerätä riittävästi harjoitusaineistoa. Yleistettävyydellä tarkoitettiin lopuksi sitä, kuinka hyvin merkit pystyivät ottamaan huomioon alueelliset murteet ja Taiwanin sekakielisen käytön. Tämä sulki pois sanan, koska taiwanilaiselle ja hakka-kielelle ei ole edes virallista kirjallista muotoa. Toisaalta mandariinikiinan, taiwanilaisen ja hakka-kiinan tavut ovat hyvin samankaltaisia, mikä teki siitä yleistettävissä olevan.

Siten tavut olivat valintamme tunnisteiksi. Koska mandariinikiina, taiwanilainen ja hakka ovat yksitavuisia kieliä, pelkkä tavu voi sisältää paljon tietoa puhutusta sisällöstä. Tämä on arvokas lisäys Feature Sequenceen, koska se pystyi sisällyttämään sekä akustiikka- että kontekstiriippuvaisia piirteitä. ZhuYinia, Taiwanin suosituinta kirjoitusasua, käytettiin Feature Sequence -merkkiavaruuden määrittelyssä. Taiwanin opetusministeriön ylläpitämän sanakirjan mukaan ZhuYinin kirjoitusasussa on 1339 erilaista tavua, joista vain 317 säilyy sen jälkeen, kun äännemerkit, eli ´, ˇ, `, ˙, ja samankaltaiset foneettiset yksiköt, ts, , jotta harjoiteltavuutta voitaisiin lisätä pienentämällä merkkitilaa; lisäksi yleistettävyys lisääntyisi, koska erilaisten aksenttien aiheuttamat haittavaikutukset olisivat vähäisemmät, koska eri äänteet ryhmitellään nyt yhteen ja niitä tarkastellaan yhtenä yksikkönä. Merkkiavaruuteen lisätään myös hiljainen merkki. Koska merkkiavaruudessa on kuitenkin vain yksi hiljaisuutta osoittava merkki, oli määriteltävä kynnysarvo, jonka perusteella päätellään, pitäisikö hiljainen segmentti kirjoittaa hiljaisuusmerkiksi sen pituuden perusteella. Lopulta Feature Sequence -merkkiavaruus oli 318.

Feature sequence generator

Kerätyn puhedatan ollessa syötteenä Feature Sequence -merkkiavaruus voitiin generoida kahdella tavalla: toinen tehtiin manuaalisesti ihmisen tekemällä merkinnällä, kun taas toinen tehtiin automaattisesti mallin avulla. Valitsemamme malli oli Connectionist Temporal Classification (CTC) loss31 -menetelmällä koulutettu Convolutional Recurrent Neural Network (CRNN).

Malliarkkitehtuuri

Järjestelmässämme mallin syötteenä oli 80-ulotteinen log-suodatinpankin energia, joka oli uutettu 25 ms:n ikkunakoolla ja 10 ms:n hyppykoolla. Lisäksi johdettujen energioiden normalisointiin käytettiin Cepstral Mean and Variance Normalization (CMVN)32 -menetelmää. Feature Sequence Generatorin arkkitehtuuria inspiroi suurimmaksi osaksi Baidu, Inc:n Deep Speech 2 -malli (Deep Speech 2, Baidu, Inc.)33 , joka on viimeisintä kehitystä edustava puheentunnistusmalli, joka on arvioitu sekä englannin että mandariinikiinan kielillä. Joitakin Deep Speech 2:n keskeisiä kohokohtia voidaan tiivistää seuraavasti. Ensinnäkin kaksisuuntainen rekursiivinen neuroverkko (Recurrent Neural Network, RNN) parantaisi huomattavasti mallin suorituskykyä. Toiseksi, soveltamalla 2D-konvoluutiokerroksia ennen RNN:ää voitaisiin järjestää spektrogrammi uudelleen mallintamalla ajallinen translaatioinvarianssi ja spektraalinen invarianssi ja vähentää CTC-häviön laskentakustannuksia pienentämällä aika-askeleiden määrää. Eränormalisoinnin (Batch Normalization, BN)34 soveltaminen jokaiseen kerrokseen lisää harjoittelunopeutta ja parantaa mallin suorituskykyä entisestään. Koska laitteistoresurssit olivat kuitenkin rajalliset, Feature Sequence Generator -mallissa oli kolme 2D-konvoluutiokerrosta, sitten 5-kerroksinen kaksisuuntainen RNN ja lopuksi täysin kytketty kerros. Konvoluutiokerrosten suodattimien lukumäärä oli 32, 32 ja 96. Suodattimien ytimen koko oli (11, 41), (11, 21) ja (11, 21). Kussakin RNN:n kerroksessa oli 512 GRU-solua molempiin suuntiin. Täysin kytketyssä kerroksessa oli 318 (vastaa luokkien lukumäärää Feature Sequence -merkkiavaruudessa) + 1 (vastaa ”tyhjää” merkkiä) solmua, ja aktivointifunktio on softmax-funktio. BN:ää sovelletaan myös kaikissa kolmessa konvoluutiokerroksessa juuri ennen aktivointia. Deep Speech 2:ssa toteutetun BN:n sijaan kerrosten normalisointia (Layer Normalization, LN) sovelletaan kuitenkin kaikkiin viiteen RNN-kerrokseen, koska LN näyttää soveltuvan paremmin kuin BN RNN-sovelluksiin35. Feature Sequence Generatorin lohkokaavio on esitetty kuvassa 2.

Kuva 2

The block diagram of the Feature Sequence Generator.

Mallin harjoittelu

Feature Sequence Generatorin harjoittelemiseksi kerättiin neljä mandariinikiinankielistä tietokokonaisuutta, jotka olivat Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38 ja THCHS-3039. Yhteensä dataa kertyi 307961 instanssia ja 422 tuntia. Kunkin instanssin keskimääräinen kesto oli 7 sekuntia, ja kaikki yli 10 sekuntia kestäneet instanssit poistettiin harjoitusjoukosta, koska pidemmillä syöttösekvensseillä on suuremmat mahdollisuudet kohdata häviävän ja räjähtävän gradientin ongelma. Optimointina käytettiin BPTT-menetelmää (Backpropagation through time) käyttäen Adam40-ohjelmaa, jonka oppimisnopeus oli 0,0005. Koulutuksen vakauttamiseksi käytettiin myös gradientin leikkausta, jossa suurin sallittu gradientti oli 400. Eräkooksi asetettiin 32 koko koulutusprosessin ajan, ja mallia koulutettiin 50000 iteraation ajan. Kaikki painot alustettiin Glorot normal initializerilla41.

Feature sequencen generointistrategia

Feature sequencen generointi tehtiin yleensä ahneella dekoodauksella42. Kaikki merkit hiljaisuusmerkkiä lukuun ottamatta voitiin generoida valitsemalla se, jonka mallitulos oli suurin kullakin aika-askeleella. Hiljaisuusmerkin luomiseksi suunniteltiin yksinkertainen heuristiikka, jolla määritettiin hiljaisen segmentin pituus ja se, luodaanko hiljaisuusmerkki määritetyn pituuden perusteella. Ensin Feature Sequence Generatorin tuottamaa tyhjää merkkiä käsiteltiin hiljaisuutena tai ainakin merkityksettömänä. Sen jälkeen vain tietyn kynnysarvon ylittävä määrä peräkkäisiä tyhjiä merkkejä transkriboitiin hiljaisuusmerkiksi. Kynnysarvo voitiin määrittää sekunteina, eli kuinka monta sekuntia yhden hiljaisen segmentin pitäisi olla, jotta sitä käsiteltäisiin hiljaisena merkkinä. Koska syötteen hyppykoko oli 10 ms, hiljaisuusmerkki transkriboitaisiin vain, jos peräkkäisiä tyhjiä merkkejä olisi vähintään kynnysarvo (sekunteina ilmaistuna) jaettuna 0,01:llä. Esimerkiksi kun kynnysarvo on 3 sekuntia, hiljainen merkki transkriboitaisiin vasta, kun on olemassa vähintään 300 peräkkäistä tyhjää merkkiä.

Alzheimerin taudin arviointimoottori

Syötteeksi annettiin Feature Sequence, joka implisiittisesti sisältää arvioinnissa tarvittavat tiedot, ja tulosteeksi saatiin Alzheimerin tautia sairastavan arviointipisteet. Muotoilimme AD:n sairastamisen pistemäärän Feature Sequencessa olevien merkkien joukon funktiona, kuten seuraavassa yhtälössä esitetään:

$$score=f({s}_{1},\,{s}_{2},\,\,\ldots ,\,{s}_{T})\in $$

(1)

jossa st on t:nnen merkin merkki Feature-sekvenssissä, ja T on Feature-sekvenssin maksimipituus. Arviointipistemäärä on skalaarinen arvo, joka vaihtelee välillä 0-1. Mitä korkeampi arviointipistemäärä on, sitä suurempi on AD:n todennäköisyys. Sen sijaan, että luokittimen kouluttamiseksi laadittaisiin käsityönä runsaasti piirteitä ja valittaisiin merkittävät piirteet tilastollisen analyysin avulla, luokittimen rakentamisessa käytetään dataan perustuvaa koneoppimistekniikkaa. Valittu malli on RNN.

Malliarkkitehtuuri

Korkeamman tason näkökulmasta RNN voidaan myös yleisesti muotoilla seuraavasti:

$${h}_{t+1},\,{y}_{t}=RNN({x}_{t},\,{h}_{t})$$
(2)

joissa xt on aika-askeleen t tulo, yt on aika-askeleen t ulostulo ja ht on RNN:n piilotila aika-askeleella t. Se sopii täydellisesti ongelmaamme, koska sen vahvuutena on sekvenssin mallintaminen. Samankaltaisuus voidaan havaita myös vertaamalla yhtälöitä. (1) ja (2) Uskomme, että sen jälkeen, kun RNN on käsitellyt ominaisuussekvenssiä korvaamalla xt:n st:llä, sen viimeisen aika-askeleen ulostulossa, jota voidaan pitää myös koodattuna viestinä tai koko sekvenssin ominaisuussuurevektorina, olisi riittävästi tietoa luokittelua varten täysin kytketyn kerroksen kautta, eli

$$score=\sigma (W{y}_{T}+b)$$
(3)

joissa yT on RNN:n ulostulo viimeisestä aika-askeleesta, W on painot, b on harha, σ on täysin kytketyn kerroksen aktivaatiofunktio ja score on AD:n omaavan AD:n arviointipisteet.

Mikäli käytettävissä on vain rajallinen määrä dataa, AD-arviointimoottorin arkkitehtuuri on suunniteltu mahdollisimman kevyeksi, jotta voidaan lisätä koulutettavuutta ja vähentää ylisovittamisen mahdollisuutta rajoittamalla sen kapasiteettia. Lopulta se on yksikerroksinen kaksisuuntainen RNN, jossa on 128 GRU-solua kumpaankin suuntaan, ja viimeisen aika-askeleen ulostulo kumpaankin suuntaan yhdistetään ja syötetään täysin kytketyn kerroksen läpi lopullisen ulostulon luomiseksi, jossa se on yksittäinen skalaarinen arvo, joka vaihtelee 0:n ja 1:n välillä. GRU:n ulostulon aktivointifunktio on tanh ja GRU:n porttiohjauksen ja täysin kytketyn ulostulon aktivointifunktio sigmoidifunktio. AD-arviointimoottorin lohkokaavio on esitetty kuvassa 3.

Kuva 3

Ad-arviointimoottorin lohkokaavio.

Mallin harjoittelu

Koska AD-arviointimoottorin ulostulo aktivoitiin sigmoidisella funktiolla, se vaihtelee 0:n ja 1:n välillä, ja sitä voitiin käsitellä todennäköisyytenä. Kutakin tulosta vastaava merkintä oli siten 0, jos koehenkilöillä ei ole AD:ta, ja 1, jos koehenkilöillä on AD. Häviöfunktio määriteltiin ulostulon ja erän kaikkien harjoitusnäytteiden merkintöjen väliseksi ristikkäisentropian summaksi. BPTT suoritetaan käyttämällä optimoijana Adamia, jonka oppimisnopeus on 0,001. Eräkoko on 16 koko koulutusprosessin ajan. Kaikki painot alustetaan käyttämällä Glorot normal -initialisoijaa41.

Aineiston valmistelu

Käsitelty tutkimus hyväksyttiin kansallisen Taiwanin yliopistollisen sairaalan eettisessä toimikunnassa ja institutionaalisessa tarkastuslautakunnassa. Tietojen kerääminen ja kaikki tämän tutkimuksen menetelmät suoritettiin kaikki hyväksyttyjen ohjeiden ja määräysten mukaisesti. Kaikilta osallistujilta saatiin kirjallinen tietoinen suostumus.

Mandarin_Lu & NTU dataset

Mandarin_Lu corpus from the DementiaBank on tietokokonaisuus, joka sisältää haastattelutallenteita 52:lta taiwanilaiselta AD-potilaalta43,44. Jotta aineisto vastaisi tiedonkeruumenetelmällämme kerättyä aineistoa, sitä täydennettiin manuaalisesti segmentoimalla koehenkilön ensimmäisen minuutin vastaus. Aineistosta valittiin vain 30 koehenkilöä, koska loput olivat joko alle minuutin mittaisia tai haastattelija häiritsi niitä huomattavasti. Valittu aineisto sisältää kolme neuropsykologista testiä, jotka ovat hedelmien sujuvuustestaus, sijainnin sujuvuustestaus ja kuvien kuvaustesti, jossa käytetään WAB:n kuvaa. Käyttämällä edellä mainittua tiedonkeruumenettelyä, toiset 30 kognitiivisesti tervettä (CH) koehenkilöä rekrytoitiin omatoimisesti kontrolliryhmäksi kansallisen Taiwanin yliopistollisen sairaalan institutionaalisen tarkastuslautakunnan hyväksynnän mukaisesti. Keräyksessämme käytetyt neuropsykologiset testit ovat täsmälleen samat kuin Mandarin_Lu -korpuksesta valitut testit. Tämä tietokokonaisuus on nimeltään NTU dataset. Mandarin_Lu- ja NTU-tietokannan näytteiden määrä sekä hedelmien että sijainnin sujuvuustestissä on 30 ja kuvien kuvaustestissä 15.

NTUH-tietokanta

Vaikka Mandarin_Lu-tietokannan ja NTU-tietokannan yhdistelmää käytettiin ehdotetun järjestelmän pilottitutkimukseen, tehtävän kokonaisvaikeus ei ole yhtä vaikea, koska nämä kaksi testiryhmää ovat kognitiivisilta kyvyiltään varsin erilaisia. Lisäksi myös tallennusympäristö ja tallenteen laatu ovat hyvin erilaisia. Lopuksi on todettava, että myöskään koehenkilön sairauskertomusta ei ole saatavilla, joten on epävarmaa, esiintyikö AD:n ohella muita komplikaatioita. Mandarin_Lu-aineiston ja NTU-aineiston heikkouksien korjaamiseksi rekrytoitiin 20 koehenkilöä käyttäen edellä mainittua tiedonkeruumenettelyä, joista 10 koehenkilöä on CH ja 10 koehenkilöä AD. Tämä tietokokonaisuus on nimeltään NTUH-tietokokonaisuus. Lievän AD:n diagnoosi perustui NINCDS-ADRDA:n Alzheimer-kriteereihin. Osallistujat suljettiin pois, jos heillä oli nykyinen tai aiempi diagnoosi psykiatrisesta häiriöstä, alkoholin tai huumeiden väärinkäytöstä, oppimisvaikeuksista, tiedossa oleva päävamma, johon liittyi tajunnan menetys, hoitamaton kilpirauhasen vajaatoiminta, B12-vitamiinin puutos, aineenvaihdunnan häiriö tai merkittävä näkö- tai kuulovamma, joka esti osallistumisen neuropsykologisiin testeihin. Kun neuropsykologisia testejä oli 6 kappaletta testihenkilöä kohti, yhden minuutin mittaisia näytteitä otettiin yhteensä 120 kappaletta. Taulukossa 1 luetellaan NTUH-tietokannan koehenkilöiden demografiset tiedot. Koehenkilöt rekrytoitiin itse kontrolliryhmäksi National Taiwan University Hospitalin institutionaalisen tarkastuslautakunnan hyväksynnän mukaisesti.

Taulukko 1 NTUH Datasetin koehenkilöiden tiedot.

Vastaa

Sähköpostiosoitettasi ei julkaista.