An Automatic Assessment System for Alzheimer’s Disease Based on Speech Using Feature Sequence Generator and Recurrent Neural Network
Přehled systému
V našem systému byly především tři komponenty: postup sběru dat, který shromažďoval řečová data od uživatele, generátor sekvence funkcí, který přeměnil řečová data na sekvenci funkcí, což byla nová reprezentace funkcí navržená v této studii, a nástroj pro hodnocení AD, který generoval skóre AD. Blokové schéma systému je uvedeno na obr. 1.
Postup sběru dat
Postup sběru dat našeho systému byl následující. Nejprve byl uživatel osobně poučen o formuláři a průběhu následných neuropsychologických testů. Poté byl uživatel požádán, aby se posadil ke stolu umístěnému s mikrofonem a dvojicí reproduktorů nahoře. Při celkem šesti vybraných neuropsychologických testech za sezení byl popis každého neuropsychologického testu přehráván po dobu 30 sekund a následovalo okno pro odpovědi v délce 1 minuty. Řečové údaje byly zaznamenávány pouze během této jedné minuty. Celkově trvalo jedno sezení pouze necelých 10 minut.
Výběr neuropsychologických testů
V našem systému byly vybrány tři typy neuropsychologických testů, kterými byly test plynulosti řeči19,20,21, test popisu obrázků22,23,24 a test logické paměti25,26,27 . Výběr byl založen na neuropsychologickém hodnocení prováděném v klinickém prostředí a také na známých výzkumech týkajících se AD. Ukázalo se, že tyto testy jsou účinné při charakterizování klíčových rysů AD, což byly všechny velmi diferencované problémy.
Test plynulosti
Postup testu plynulosti byl následující. Po zadání určené kategorie byl subjekt požádán, aby po omezenou dobu vyslovil co nejvíce různých slov vztahujících se k této kategorii. Například pokud byla kategorie zvíře, možné odpovědi byly sloni, tygři, zebry atd. V našem systému byly vybrány kategorie zvíře a ovoce a časový limit pro každou kategorii byl jedna minuta.
Test popisu obrázku
Průběh testu popisu obrázku byl následující. Vzhledem k předloženému obrázku byl subjekt požádán, aby co nejpodrobněji popsal scenérii na obrázku za omezený čas. Možnou odpovědí byl například následující popis. Toto je obrázek zobrazující typický rodinný večer. Tatínek se dívá na baseball a maminka plete šálu. Aktuální čas je … atd. V našem systému byl vybrán obrázek ze související studie provedené v Japonsku28 , které s námi sdílelo podobné kulturní prostředí, a další ze Západní baterie afázie (WAB)29 . Časový limit pro každý obrázek byl rovněž jedna minuta.
Test logické paměti
Postup testu logické paměti byl následující. Účastníkům byl nahlas přečten krátký příběh a poté byl subjekt požádán, aby si příběh spontánně co nejpřesněji vybavil. V našem systému byly pro analýzu zařazeny dva příběhy Wechslerovy paměťové škály III (WMS-III)30 . Ačkoli v klinickém uspořádání nebyl pro testy logické paměti stanoven žádný časový limit, v našem systému byl přesto z důvodu konzistence použit časový limit jedné minuty.
Prezentace rysů – posloupnost rysů
Na rozdíl od mnoha dosavadních publikací12,13,14,15,16,17,18 bylo naším cílem navrhnout reprezentaci, která by dokázala implicitně ztělesnit všechny rysy najednou. To, co jsme vymysleli, byla posloupnost tokenů, kde každý token odpovídal za reprezentaci jednoho jedinečného prvku v řeči. Pomocí takové reprezentace by pauza mohla být identifikována pomocí tokenu ticha nebo vyplněného tokenu pauzy, opakování by mohlo být identifikováno pomocí tokenů, které se opakují v celé sekvenci, a disfluence může být identifikována střídavým výskytem tokenů ticha a jiných tokenů. Kromě těchto tří klíčových charakteristik lze identifikovat i mnoho dalších užitečných odvozených znaků, o nichž se hovoří v existující literatuře13. Například délka i rychlost řeči byly úměrné počtu tokenů v sekvenci. Dokonce i některé z kontextově závislých rysů, jako je počet unikátních slov a nízkofrekvenčních slov, by mohly mít potenciál být odvozeny z distribuce tokenů, protože každý token může být poměrně blízkou aproximací konkrétního slova. Díky těmto vlastnostem byl náš návrh plně schopen zobrazit řeč pacientů s AD, což byl vynikající kandidát pro úlohy, jako je detekce a hodnocení AD. Sekvence tokenů je v následujícím obsahu označována jako sekvence rysů (Feature Sequence).
Pro splnění kritérií sekvence rysů byly možnými kandidátními tokeny fonémy, slabiky, slova, výroky atd. Hlavním hlediskem výběru optimálního kandidáta byla vhodnost, trénovatelnost a zobecnitelnost. Vhodnost znamenala, jak vhodně mohou tokeny projevovat klíčové charakteristiky. To vylučovalo fonémy, protože se jedná o minimální jednotky řeči, takže se bude vyskytovat mnoho opakujících se tokenů, což by mohlo být zavádějící při identifikaci opakování, protože to může pocházet buď ze stejného slova, nebo z různých slov. Trénovatelnost znamenala, nakolik je možné sestavit klasifikátor pro hodnocení AD na základě sekvence funkcí a automatického generátoru sekvence funkcí. To vyloučilo výroky, protože nebylo možné shromáždit dostatek trénovacích dat. A konečně zobecnitelnost znamenala, jak dobře mohou tokeny zahrnovat regionální dialekty a smíšené jazykové použití na Tchaj-wanu. To vyloučilo slovo, protože pro tchajwanštinu a hakkaštinu neexistuje ani oficiální psaná forma. Na druhou stranu jsou si slabiky mandarínské čínštiny, tchajwanštiny a hakka velmi podobné, což umožnilo zobecnitelnost.
Pro naše tokeny jsme tedy zvolili slabiky. Navíc vzhledem k tomu, že mandarínská čínština, tchajwanština a hakka jsou jednoslabičné jazyky, samotná slabika může obsahovat mnoho informací o obsahu mluvené řeči. To je cenné vylepšení sekvence rysů, protože byla kompetentní ztělesnit jak akusticky závislé, tak kontextově závislé rysy. ZhuYin, nejoblíbenější způsob hláskování na Tchaj-wanu, byl použit k definování prostoru tokenů pro naši Feature Sequence. Podle slovníku vedeného tchajwanským ministerstvem školství se v ZhuYin píše 1339 různých slabik a po vyřazení tónových značek, tj. ´, ˇ, ˇ, ˙, a podobných fonetických jednotek, tj, , aby se zmenšením prostoru pro tokeny zvýšila trénovatelnost; navíc by se zvýšila i zobecnitelnost, protože by vzniklo méně nepříznivých vlivů způsobených různými přízvuky, protože různé tóny byly nyní seskupeny a vnímány jako jedna jednotka. Do prostoru tokenů je také přidán němý token. Protože je však v prostoru tokenů pouze jeden token označující ticho, bylo třeba stanovit práh pro posouzení, zda má být segment ticha přepsán na token ticha na základě jeho délky. Nakonec byl prostor tokenů pro Feature Sequence 318.
Generátor Feature Sequence
Díky shromážděným řečovým datům jako vstupu existovaly dva způsoby generování Feature Sequence: jeden byl proveden ručně lidským značením, zatímco druhý byl proveden automaticky modelem. Zvoleným modelem byla konvoluční rekurentní neuronová síť (CRNN) natrénovaná pomocí ztráty konekcionistické časové klasifikace (CTC)31.
Architektura modelu
V našem systému byla vstupem modelu 80dimenzionální energie z logaritmické banky filtrů extrahovaná s velikostí okna 25 ms a velikostí skoku 10 ms. V našem systému byla vstupem energie z logaritmické banky filtrů. Kromě toho byla k normalizaci odvozených energií použita metoda Cepstral Mean and Variance Normalization (CMVN)32 . Architektura generátoru sekvencí funkcí byla z větší části inspirována nejmodernějším end-to-end modelem pro rozpoznávání řeči vyhodnoceným na angličtině i mandarínské čínštině, konkrétně Deep Speech 2 od společnosti Baidu, Inc.33 . Některé klíčové prvky modelu Deep Speech 2 jsou shrnuty následovně. Za prvé, obousměrné nastavení rekurentní neuronové sítě (RNN) by nesmírně zlepšilo výkonnost modelu. Za druhé, použití 2D konvolučních vrstev před RNN by mohlo reorganizovat spektrogram modelováním časové translační invariance a spektrální invariance a snížit výpočetní náklady ztráty CTC zmenšením počtu časových kroků. A konečně, použití dávkové normalizace (BN)34 na každou vrstvu zvyšuje rychlost trénování a dále zvyšuje výkonnost modelu. Vzhledem k omezeným hardwarovým zdrojům, které byly k dispozici, měl však generátor funkčních sekvencí 3 2D-konvoluční vrstvy, následované 5vrstvou obousměrnou RNN a nakonec plně propojenou vrstvou. U konvolučních vrstev byl počet filtrů 32, 32 a 96, velikost jádra filtrů byla (11, 41), (11, 21) a (11, 21). Pro každou vrstvu RNN bylo v obou směrech 512 buněk GRU. Pro plně propojenou vrstvu existovalo 318 (odpovídá počtu tříd v prostoru tokenů Feature Sequence) + 1 (odpovídá „prázdnému“ tokenu) uzlů a aktivační funkce je funkce softmax. BN je rovněž použita ve všech 3 konvolučních vrstvách těsně před aktivací. Namísto aplikace BN implementované v Deep Speech 2 je však ve všech 5 vrstvách RNN aplikována normalizace vrstev (LN), protože LN se zdá být při řešení aplikací RNN vhodnější než BN35. Blokové schéma generátoru sekvencí funkcí je znázorněno na obr. 2.
Trénování modelu
Pro trénování generátoru posloupnosti funkcí byly shromážděny čtyři soubory dat v mandarínské čínštině, kterými byly Aishell36, sada čínského korpusu Primewords 137, volný čínský korpus ST Mandarin38 a THCHS-3039. Celkem se jednalo o 307961 instancí a 422 hodin dat. Průměrná doba trvání každé instance byla 7 sekund a všechny instance delší než 10 sekund byly z trénovací sady odstraněny, protože delší vstupní sekvence mají větší šanci čelit problému mizejícího a explodujícího gradientu. Jako optimalizátor byla použita metoda Backpropagation through time (BPTT) s použitím programu Adam40 s rychlostí učení 0,0005. K další stabilizaci trénování bylo použito také ořezávání gradientu, přičemž maximální přípustný gradient byl 400. Velikost dávky byla po celou dobu trénování nastavena na 32 a model byl trénován po dobu 50000 iterací. Všechny váhy byly inicializovány pomocí normálního inicializátoru Glorot41.
Strategie generování posloupnosti funkcí
Generování posloupnosti funkcí bylo obecně provedeno pomocí greedy dekódování42. Všechny tokeny s výjimkou tokenu ticha mohly být generovány výběrem toho, který měl v každém časovém kroku maximální výstup modelu. Pro generování tokenu ticha byla navržena jednoduchá heuristika, která určovala délku segmentu ticha a na základě určené délky určovala, zda má být generován token ticha. Nejprve byl prázdný token na výstupu generátoru sekvencí funkcí považován za ticho nebo alespoň za nic významného. Poté se na token ticha přepisoval pouze počet nad určitou hranicí po sobě jdoucích prázdných tokenů. Prahová hodnota mohla být specifikována v sekundách, tj. kolik sekund by měl mít jeden segment ticha, aby byl považován za token ticha. Protože velikost skoku na vstupu byla 10 ms, byl by token ticha přepsán pouze tehdy, pokud by existoval alespoň práh (v sekundách) dělený 0,01 po sobě jdoucích prázdných tokenů. Například vzhledem k tomu, že prahová hodnota je 3 sekundy, token ticha by byl přepsán pouze tehdy, pokud by existovalo alespoň 300 po sobě jdoucích prázdných tokenů.
Alzheimer’s disease assessment engine
Při zadání sekvence funkcí jako vstupu, který implicitně obsahuje potřebné informace pro posouzení, bylo výstupem skóre posouzení, zda má Alzheimerovu chorobu. Skóre toho, že má AD, jsme formulovali pomocí funkce množiny tokenů v sekvenci funkcí, jak ukazuje následující rovnice:
kde st je t-tý token v sekvenci znaků a T je maximální délka sekvence znaků. Hodnotící skóre je skalární hodnota od 0 do 1, přičemž čím vyšší je hodnotící skóre, tím vyšší je pravděpodobnost výskytu AD. Namísto ručního vytváření hojného počtu rysů a následného výběru těch významných pomocí statistické analýzy pro trénování klasifikátoru se k sestavení našeho klasifikátoru využívá technika strojového učení založená na datech. Zvoleným modelem je RNN.
Architektura modelu
Na vyšší úrovni lze RNN také obecně formulovat jako:
kde xt je vstup časového kroku t, yt je výstup časového kroku t a ht je skrytý stav RNN časového kroku t. Pro náš problém se dokonale hodí, protože jeho silnou stránkou je modelování sekvencí. Podobnost je patrná také z porovnání rovnic. (1) a (2) Domníváme se, že poté, co RNN zpracuje Feature Sequence dosazením xt do st, výstup z jejího posledního časového kroku, který lze také považovat za zakódovanou zprávu nebo feature vektor celé sekvence, bude mít dostatek informací pro klasifikaci prostřednictvím plně propojené vrstvy, to znamená,
kde yT je výstup RNN z posledního časového kroku, W je váha, b je zkreslení, σ je aktivační funkce plně propojené vrstvy a score je skóre hodnocení, které má AD.
Když jsou k dispozici pouze omezená data, je architektura vyhodnocovacího modulu AD navržena tak, aby byla co nejlehčí, aby se zvýšila trénovatelnost a snížila pravděpodobnost nadměrného přizpůsobení omezením jeho kapacity. Nakonec se jedná o jednovrstvou obousměrnou RNN se 128 buňkami GRU v každém směru a výstup z posledního časového kroku v každém směru je spojen a veden přes plně propojenou vrstvu pro generování konečného výstupu, kde se jedná o jedinou skalární hodnotu v rozsahu od 0 do 1. Aktivační funkce výstupu GRU je tanh a aktivační funkce řízení brány GRU a plně propojeného výstupu je sigmoidní funkce. Blokové schéma AD Assessment Engine je znázorněno na obr. 3.
Trénování modelu
Protože výstup AD Assessment Engine byl aktivován sigmoidní funkcí, pohybuje se v rozmezí od 0 do 1 a lze jej považovat za pravděpodobnost. Odpovídající označení pro každý výstup tedy bylo 0 pro subjekty bez AD a 1 pro subjekty s AD. Ztrátová funkce byla definována jako součet křížové entropie mezi výstupem a štítkem všech trénovacích vzorků v dávce. BPTT se provádí s použitím Adama s mírou učení 0,001 jako optimalizátoru. Velikost dávky je po celou dobu trénování nastavena na 16. Všechny váhy jsou inicializovány pomocí normálního inicializátoru Glorot41.
Příprava dat
Předložená studie byla schválena etickou komisí a Institutional Review Board při National Taiwan University Hospital. Sběr dat a všechny metody v této studii byly provedeny v souladu se schválenými pokyny a předpisy. Od všech účastníků byl získán písemný informovaný souhlas.
Datový soubor Mandarin_Lu & NTU
Korpus Mandarin_Lu z DementiaBank je datový soubor obsahující nahrávky rozhovorů od 52 pacientů s AD na Tchaj-wanu43,44 . Aby data shromážděná pomocí našeho postupu sběru dat odpovídala, byla data doplněna ručně segmentací odpovědi v první minutě od subjektu. Ze souboru dat bylo vybráno pouze 30 subjektů, protože zbytek byl buď kratší než jedna minuta, nebo byl značně rušen tazatelem. Vybraná data zahrnují tři neuropsychologické testy, kterými jsou test plynulosti práce s ovocem, test plynulosti práce s místem a test popisu obrázku pomocí obrázku z WAB. Pomocí výše uvedeného postupu sběru dat bylo na základě souhlasu institucionální revizní komise Národní tchajwanské univerzitní nemocnice samostatně rekrutováno dalších 30 kognitivně zdravých (CH) osob jako kontrolní skupina. Neuropsychologické testy použité při našem sběru jsou naprosto stejné jako ty vybrané z korpusu Mandarin_Lu. Tento soubor dat je pojmenován NTU dataset. Počet vzorků v datasetu Mandarin_Lu a NTU pro test plynulosti určování ovoce i polohy je 30 a pro test popisu obrázků 15.
NTUH Dataset
Když byla pro pilotní studii navrhovaného systému použita kombinace datasetu Mandarin_Lu a datasetu NTU, celková obtížnost úlohy není tak náročná, protože obě testované skupiny se od sebe z hlediska svých kognitivních schopností značně liší. Navíc se značně liší i prostředí a kvalita záznamu. V neposlední řadě není k dispozici ani lékařská zpráva subjektu, takže není jisté, zda se vedle AD nevyskytly i nějaké další komplikace. K překonání nedostatků datového souboru Mandarin_Lu a datového souboru NTU bylo dále rekrutováno dvacet subjektů pomocí výše uvedeného postupu sběru dat, přičemž 10 subjektů je CH a 10 subjektů je AD. Tento soubor dat je nazván soubor dat NTUH. Diagnóza mírné AD byla stanovena na základě kritérií NINCDS-ADRDA pro Alzheimerovu chorobu. Účastníci byli vyloučeni, pokud měli současnou nebo minulou diagnózu psychiatrické poruchy, zneužívání alkoholu nebo drog, poruchy učení, známý úraz hlavy se ztrátou vědomí, neléčenou hypotyreózu, nedostatek vitaminu B12, metabolickou odchylku nebo jakékoli významné zrakové nebo sluchové postižení, které vylučovalo účast na neuropsychologickém testování. Při 6 neuropsychologických testech na subjekt bylo celkem 120 jednominutových vzorků. Tabulka 1 uvádí demografické údaje subjektů v souboru dat NTUH. Subjekty byly rekrutovány na vlastní pěst jako kontrolní skupina na základě schválení institucionální revizní komise Národní tchajwanské univerzitní nemocnice.
.