Un sistem de evaluare automată a bolii Alzheimer bazat pe vorbire, utilizând un generator de secvențe de caracteristici și o rețea neuronală recurentă

Suprafață generală a sistemului

Sistemul nostru a avut în principal trei componente: o procedură de colectare a datelor care a colectat datele de vorbire de la utilizator, generatorul de secvențe de caracteristici care a transformat datele de vorbire în secvența de caracteristici, care a fost o nouă reprezentare a caracteristicilor propusă în acest studiu, și un motor de evaluare a AD care a generat scorul de a avea AD. Organigrama sistemului este prezentată în Fig. 1.

Figura 1

Organigrama sistemului.

Procedura de colectare a datelor

Procedura de colectare a datelor din sistemul nostru a fost următoarea. În primul rând, utilizatorul a fost instruit personal cu privire la formular și la fluxul testelor neuropsihologice ulterioare. Apoi, utilizatorul a fost rugat să se așeze la un birou amplasat cu un microfon și o pereche de difuzoare deasupra. Cu un total de șase teste neuropsihologice selectate pe sesiune, descrierea fiecărui test neuropsihologic a fost redată timp de 30 de secunde și a fost urmată de o fereastră de răspuns de 1 minut. Datele de vorbire au fost înregistrate doar în timpul acestei perioade de un minut. În general, a durat doar mai puțin de 10 minute pentru a finaliza o sesiune.

Selecția testelor neuropsihologice

În sistemul nostru au fost selectate trei tipuri de teste neuropsihologice, care au fost testul de fluență19,20,21, testul de descriere a imaginilor22,23,24 și testul de memorie logică25,26,27. Selecția s-a bazat pe evaluarea neuropsihologică efectuată într-un cadru clinic, precum și pe cercetări bine cunoscute în ceea ce privește DA. Aceste teste s-au dovedit a fi eficiente în caracterizarea trăsăturilor cheie ale DA, toate acestea fiind probleme foarte ușor de diferențiat.

Test de fluență

Procedura testului de fluență a fost următoarea. Dată fiind o categorie desemnată, subiectul a fost rugat să rostească cât mai multe cuvinte diferite legate de acea categorie pentru un timp limitat. De exemplu, dacă categoria era animale, răspunsurile posibile erau elefanți, tigri, zebre etc. În sistemul nostru, au fost alese categoriile de animale și fructe, iar limita de timp pentru fiecare categorie a fost de un minut.

Test de descriere a imaginilor

Procesul de desfășurare a testului de descriere a imaginilor a fost următorul. Dată fiind o imagine prezentată, subiectul a fost rugat să descrie scenariul din imagine cât mai detaliat posibil pentru un timp limitat. De exemplu, următoarea descriere a fost un răspuns posibil. Aceasta este o imagine care arată o seară tipică a unei familii. Tata se uită la baseball, iar mama tricotează o eșarfă. Ora actuală este …, etc. În sistemul nostru, sunt alese o imagine dintr-un studiu conex efectuat în Japonia28 , care împărtășea un context cultural similar cu al nostru, și o alta din Western Aphasia Battery (WAB)29 . Limita de timp pentru fiecare imagine a fost, de asemenea, de un minut.

Test de memorie logică

Procedura testului de memorie logică a fost după cum urmează. O scurtă poveste a fost citită cu voce tare participanților, după care subiectul a fost rugat să își amintească spontan povestea cât mai precis posibil. În sistemul nostru, au fost incluse pentru analiză două povestiri din Scala de memorie Wechsler III (WMS-III)30 . Deși nu a existat o limită de timp pentru testele de memorie logică într-o configurație clinică, o limită de timp de un minut a fost totuși aplicată în sistemul nostru din motive de coerență.

Reprezentare a trăsăturilor – secvență de trăsături

În comparație cu multe din literatura de specialitate existentă12,13,14,15,15,16,17,18, scopul nostru a fost de a proiecta o reprezentare care ar putea încorpora implicit trăsăturile toate deodată. Ceea ce ne-a ieșit a fost o secvență de token-uri, în care fiecare token era responsabil pentru reprezentarea unui element unic din discurs. Folosind o astfel de reprezentare, pauza ar putea fi identificată printr-un token de tăcere sau un token de pauză completat, repetarea ar putea fi identificată prin token-uri care se repetă de-a lungul secvenței, iar disfluența poate fi identificată prin alternanța dintre token-urile de tăcere și alte token-uri. Pe lângă aceste trei caracteristici cheie, pot fi identificate și multe alte caracteristici derivate utile discutate în literatura existentă13 . De exemplu, lungimea și viteza discursului au fost ambele proporționale cu numărul de jetoane din secvență. Chiar și unele dintre caracteristicile dependente de context, cum ar fi numărul de cuvinte unice și de cuvinte cu frecvență redusă, ar putea fi deduse din distribuția jetoanelor, deoarece fiecare jeton poate fi o aproximare destul de apropiată de un cuvânt specific. Aceste proprietăți au făcut ca proiectul nostru să fie pe deplin capabil să reprezinte discursul pacienților cu AD, care a fost un candidat excelent pentru sarcini precum detectarea și evaluarea AD. Secvența de jetoane este denumită Secvența Caracteristică în conținutul următor.

Pentru a îndeplini criteriile Secvenței Caracteristice, jetoanele candidate posibile au fost foneme, silabe, cuvinte, enunțuri etc. Principalul considerent pentru selectarea candidatului optim a fost adecvarea, capacitatea de instruire și generalizabilitatea. Adecvarea a constat în măsura în care simbolurile ar putea manifesta caracteristicile cheie. Acest lucru a exclus fonemele, deoarece acestea reprezintă unitățile minime de vorbire, astfel încât vor exista o mulțime de simboluri recurente, ceea ce ar putea induce în eroare în ceea ce privește identificarea repetițiilor, deoarece acestea ar putea proveni fie din același cuvânt, fie din cuvinte diferite. Capacitatea de formare a fost cât de fezabilă a fost construirea unui clasificator pentru evaluarea DA pe baza secvenței de caracteristici și a unui generator automat de secvențe de caracteristici. Acest lucru a exclus rostirea, deoarece a fost imposibil să se colecteze suficiente date de formare. În cele din urmă, generalizabilitatea a însemnat cât de bine pot încorpora token-urile dialectele regionale și utilizarea mixtă a limbilor în Taiwan. Acest lucru a exclus cuvântul, deoarece nu există nici măcar o formă scrisă oficială pentru taiwaneză și Hakka. Pe de altă parte, silabele din chineza mandarină, taiwaneză și Hakka sunt foarte asemănătoare, ceea ce le-a făcut generalizabile.

Prin urmare, silabele au fost alegerea simbolurilor noastre. În plus, întrucât chineza mandarină, taiwaneza și Hakka sunt limbi monosilabice, silaba singură poate conține multe informații despre conținutul vorbit. Aceasta este o îmbunătățire valoroasă a secvenței de caracteristici, deoarece a fost competentă pentru a încorpora atât caracteristicile dependente de acustică, cât și cele dependente de context. ZhuYin, cel mai popular mod de ortografie din Taiwan, a fost utilizat pentru a defini spațiul de simboluri pentru secvența noastră de caracteristici. Conform dicționarului menținut de Ministerul Educației din Taiwan, există 1339 de silabe diferite ortografiate în ZhuYin și doar 317 dintre acestea sunt reținute după eliminarea markerilor de ton, adică ´, ˇ, `, ˙, și a unităților fonetice similare, adică, , pentru a crește capacitatea de instruire prin diminuarea spațiului de jetoane; în plus, generalizabilitatea ar fi, de asemenea, crescută, deoarece ar apărea mai puține efecte adverse cauzate de accente diferite, deoarece tonurile diferite sunt acum grupate împreună și privite ca o singură unitate. Un simbol mut este, de asemenea, adăugat la spațiul simbolic. Cu toate acestea, deoarece există doar un singur token care indică tăcerea în spațiul de tokenuri, a fost necesar să se stabilească un prag pentru a judeca dacă un segment de tăcere ar trebui transcris la un token de tăcere pe baza lungimii sale. În cele din urmă, spațiul de jetoane pentru secvența caracteristică a fost de 318.

Generatorul de secvențe caracteristice

După datele de vorbire colectate ca intrare, au existat două modalități de generare a secvenței caracteristice: una a fost realizată manual prin etichetare umană, în timp ce cealaltă a fost realizată automat de un model. Modelul ales a fost o rețea neuronală recurentă convoluțională (CRNN) antrenată prin pierderea de clasificare temporală conexionistă (CTC)31.

Arhitectura modelului

În sistemul nostru, intrarea modelului a fost energia logaritmică a bancului de filtrare de 80 de dimensiuni extrasă cu o dimensiune a ferestrei de 25 ms și o dimensiune a saltului de 10 ms. Mai mult decât atât, s-a aplicat Cepstral Mean and Variance Normalization (CMVN)32 pentru a normaliza energiile derivate. Arhitectura generatorului de secvențe de caracteristici a fost inspirată în principal de modelul de recunoaștere vocală end-to-end de ultimă generație, evaluat atât pentru limba engleză, cât și pentru chineza mandarină, și anume Deep Speech 2 de la Baidu, Inc.33. Câteva dintre elementele cheie ale modelului Deep Speech 2 sunt rezumate după cum urmează. În primul rând, o configurație de rețea neuronală recurentă bidirecțională (RNN) ar îmbunătăți foarte mult performanța modelului. În al doilea rând, aplicarea unor straturi de convoluție 2D înainte de RNN ar putea reorganiza spectrograma prin modelarea invarianței de translație temporală și a invarianței spectrale și ar putea reduce costul de calcul al pierderii CTC prin reducerea numărului de pași temporali. În cele din urmă, aplicarea normalizării pe loturi (Batch Normalization (BN)34 la fiecare strat crește viteza de instruire și îmbunătățește și mai mult performanța modelului. Cu toate acestea, având la dispoziție resurse hardware limitate, generatorul de secvențe de caracteristici a avut 3 straturi 2D-convoluționale, urmate de un RNN bidirecțional cu 5 straturi și, în final, de un strat complet conectat. Pentru straturile de convoluție, numărul de filtre a fost de 32, 32 și, respectiv, 96, iar dimensiunea nucleului filtrelor a fost de (11, 41), (11, 21) și, respectiv, (11, 21). Pentru fiecare strat al RNN, au existat 512 celule GRU în ambele direcții. Pentru stratul complet conectat, au existat 318 (care corespund numărului de clase din spațiul de jetoane al secvenței de caracteristici) + 1 (care corespunde jetoanelor „goale”) noduri, iar funcția de activare este o funcție softmax. BN se aplică, de asemenea, în toate cele 3 straturi de convoluție chiar înainte de activare. Cu toate acestea, în loc să se aplice BN implementat în Deep Speech 2, se aplică normalizarea straturilor (LN) în toate cele 5 straturi RNN, deoarece LN pare a fi mai potrivit decât BN atunci când este vorba de aplicații RNN35. Diagrama bloc a generatorului de secvențe de caracteristici este prezentată în Fig. 2.

Figura 2

Diagrama bloc a generatorului de secvențe de caracteristici.

Învățarea modelului

Pentru a antrena Generatorul de secvențe de caracteristici, au fost colectate patru seturi de date în chineza mandarină, care au fost Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38 și THCHS-3039. Acestea au însumat un total de 307961 instanțe și 422 de ore de date. Durata medie a fiecărei instanțe a fost de 7 secunde, iar toate instanțele mai mari de 10 secunde au fost eliminate din setul de instruire, deoarece secvențele de intrare mai lungi au o șansă mai mare de a se confrunta cu problema dispariției și exploziei gradientului. Backpropagation through time (BPTT) a fost realizată folosind Adam40 cu o rată de învățare de 0,0005 ca optimizator. S-a aplicat, de asemenea, reducerea gradientului pentru a stabiliza și mai mult instruirea, unde gradientul maxim admisibil a fost de 400. Dimensiunea lotului a fost setată la 32 pe parcursul întregului proces de instruire, iar modelul a fost instruit pentru 50000 de iterații. Toate ponderile au fost inițializate cu ajutorul inițializatorului normal Glorot41.

Strategia de generare a secvenței de caracteristici

Generarea secvenței de caracteristici s-a realizat, în general, prin decodare greoaie42. Toate simbolurile, cu excepția simbolului de tăcere, au putut fi generate prin selectarea celui care a avut ieșirea maximă a modelului la fiecare pas de timp. Pentru a genera simbolul de tăcere, a fost concepută o euristică simplă pentru a determina lungimea segmentului de tăcere și pentru a genera sau nu un simbol de tăcere pe baza lungimii determinate. În primul rând, simbolul gol generat de Generatorul de secvențe de caracteristici a fost tratat ca o tăcere sau, cel puțin, ca ceva nesemnificativ. Apoi, numai un număr mai mare decât un anumit prag de jetoane goale consecutive era transcris ca fiind un jeton de tăcere. Pragul poate fi specificat în termeni de secunde, adică câte secunde ar trebui să aibă un segment de tăcere pentru a fi tratat ca un semn de tăcere. Având în vedere că dimensiunea saltului de intrare a fost de 10 ms, un semn de tăcere ar fi transcris numai atunci când există cel puțin pragul (în termeni de secunde) împărțit la 0,01 de semne goale consecutive. De exemplu, având în vedere că pragul este de 3 secunde, un jeton de tăcere ar fi transcris numai atunci când există cel puțin 300 de jetoane goale consecutive.

Motor de evaluare a bolii Alzheimer

Dată secvența de caracteristici ca intrare, care conține implicit informațiile necesare pentru evaluare, rezultatul a fost scorul de evaluare a bolii Alzheimer. Am formulat scorul de a avea AD cu o funcție a unui set de token-uri din secvența de caracteristici, așa cum se arată în următoarea ecuație:

$$score=f({s}_{1},\,{s}_{2},\,\ldots ,\,{s}_{T})\în $$
(1)

unde st este al t-lea token din secvența de trăsături, iar T este lungimea maximă a secvenței de trăsături. Scorul de evaluare este o valoare scalară cuprinsă între 0 și 1, unde cu cât scorul de evaluare este mai mare, cu atât este mai mare șansa de a avea DA. În loc de a crea manual numeroase caracteristici și de a le selecta ulterior pe cele semnificative prin analiză statistică pentru a antrena un clasificator, tehnica de învățare automată bazată pe date este utilizată pentru a construi clasificatorul nostru. Modelul ales este un RNN.

Arhitectura modelului

Dintr-un punct de vedere de nivel superior, RNN poate fi, de asemenea, în general, formulat ca:

$${h}_{t+1},\,{y}_{t}=RNN({x}_{t},\,{h}_{t})$$
(2)

unde xt este intrarea din etapa de timp t, yt este ieșirea din etapa de timp t, iar ht este starea ascunsă a RNN din etapa de timp t. Acesta se potrivește perfect pentru problema noastră, deoarece punctul său forte este modelarea secvențelor. Similitudinea poate fi observată și prin compararea ecuațiilor. (1) și (2) Credem că, după ce o RNN a procesat secvența de caracteristici prin înlocuirea xt în st, ieșirea de la etapa de timp finală, care poate fi privită, de asemenea, ca un mesaj codificat sau ca un vector de caracteristici al întregii secvențe, ar avea suficiente informații pentru clasificarea prin intermediul unui strat complet conectat, adică,

$$score=\sigma (W{y}_{T}+b)$$
(3)

în care yT este ieșirea RNN din etapa temporală finală, W este ponderea, b este polarizarea, σ este funcția de activare a stratului complet conectat, iar scorul este scorul de evaluare pentru a avea AD.

Cu numai date limitate la îndemână, arhitectura motorului de evaluare a DA este concepută pentru a fi cât mai ușoară posibil pentru a crește capacitatea de instruire și a diminua șansele de supraajustare prin limitarea capacității sale. În cele din urmă, este o RNN bidirecțională bidirecțională cu un singur strat, cu 128 de celule GRU în fiecare direcție, iar ieșirea de la timestep-ul final în fiecare direcție este concatenată și introdusă printr-un strat complet conectat pentru a genera ieșirea finală, unde este o singură valoare scalară care variază de la 0 la 1. Funcția de activare a ieșirii GRU este un tanh, iar cea a controlului porții GRU și a ieșirii complet conectate este o funcție sigmoidă. Schema bloc a motorului de evaluare AD este prezentată în Fig. 3.

Figura 3

Diagrama bloc a motorului de evaluare AD.

Învățarea modelului

Din moment ce ieșirea motorului de evaluare AD a fost activată de o funcție sigmoidă, aceasta variază de la 0 la 1 și poate fi tratată ca o probabilitate. Eticheta corespunzătoare pentru fiecare ieșire a fost astfel 0 pentru subiecții fără DA și 1 pentru subiecții cu DA. Funcția de pierdere a fost definită ca suma entropiei încrucișate dintre ieșire și eticheta tuturor eșantioanelor de formare dintr-un lot. BPTT se realizează folosind Adam cu o rată de învățare de 0,001 ca optimizator. Dimensiunea lotului este setată la 16 pe parcursul întregului proces de instruire. Toate ponderile sunt inițializate prin utilizarea inițializatorului normal Glorot41.

Pregătirea datelor

Studiul prezentat a fost aprobat de Comitetul de etică și de Consiliul de evaluare instituțională de la Spitalul Universitar Național din Taiwan. Colectarea datelor și toate metodele din acest studiu au fost toate efectuate în conformitate cu orientările și reglementările aprobate. Consimțământul informat în scris a fost obținut de la toți participanții.

Mandarin_Lu & Setul de date NTU

Corpusul Mandarin_Lu din DementiaBank este un set de date care conține înregistrări de interviuri de la 52 de pacienți cu AD din Taiwan43,44. Pentru a se potrivi cu datele colectate cu ajutorul procedurii noastre de colectare a datelor, datele au fost augmentate manual prin segmentarea răspunsului din primul minut al subiectului. Doar 30 de subiecți din setul de date au fost selectați, deoarece restul fie a fost mai scurt de un minut, fie a fost interferat considerabil de către intervievator. Datele selectate includ trei teste neuropsihologice, care sunt un test de fluență a fructelor, un test de fluență a locației și un test de descriere a imaginii folosind imaginea din WAB. Utilizând procedura de colectare a datelor menționată mai sus, alți 30 de subiecți sănătoși din punct de vedere cognitiv (CH) au fost recrutați pe cont propriu ca grup de control în cadrul unei aprobări a consiliului de revizuire instituțională de la Spitalul Universitar Național din Taiwan. Testele neuropsihologice utilizate în timpul colectării noastre sunt exact aceleași cu cele selectate din corpul Mandarin_Lu. Acest set de date este denumit set de date NTU. Numărul de eșantioane din setul de date Mandarin_Lu și NTU, atât pentru testul de fluență a fructelor, cât și pentru testul de fluență a locației, este de 30, iar cel pentru testul de descriere a imaginilor este de 15.

NTUH Dataset

În timp ce o combinație a setului de date Mandarin_Lu și a setului de date NTU a fost utilizată pentru a studia pilot sistemul propus, dificultatea generală a sarcinii nu este la fel de dificilă, deoarece cele două grupuri de testare sunt destul de diferite între ele în ceea ce privește abilitățile lor cognitive. În plus, mediul de înregistrare și calitatea înregistrării sunt, de asemenea, mult diferite. În cele din urmă, nu există acces nici la raportul medical al subiectului, astfel încât nu este sigur dacă au apărut și alte complicații alături de DA. Pentru a depăși punctele slabe ale setului de date Mandarin_Lu și ale setului de date NTU, douăzeci de subiecți au fost recrutați în continuare folosind procedura de colectare a datelor menționată mai sus, unde 10 subiecți sunt CH și 10 subiecți sunt AD. Acest set de date este denumit set de date NTUH. Diagnosticul de AD ușoară s-a bazat pe criteriile Alzheimer NINCDS-ADRDA. Participanții au fost excluși dacă aveau un diagnostic actual sau trecut de tulburare psihiatrică, abuz de alcool sau de droguri, dificultăți de învățare, traumatisme craniene cunoscute cu pierderea cunoștinței, hipotiroidism netratat, deficit de vitamina B12, dereglări metabolice sau orice deficiență vizuală sau auditivă semnificativă care a împiedicat participarea la testele neuropsihologice. Cu 6 teste neuropsihologice per subiect, au existat în total 120 de probe de un minut. Tabelul 1 enumeră datele demografice ale subiecților din setul de date NTUH. Subiecții au fost recrutați pe cont propriu ca grup de control în cadrul unei aprobări a consiliului de revizuire instituțională de la Spitalul Universitar Național din Taiwan.

Tabelul 1 Informații despre subiecți din setul de date NTUH.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.