Um Sistema de Avaliação Automática da Doença de Alzheimer Baseado na Fala Utilizando Gerador de Sequência de Recursos e Rede Neural Recorrente

Visão geral do sistema

Existiam principalmente três componentes em nosso sistema: um procedimento de coleta de dados que coletou os dados de fala do usuário, o Gerador de Sequência de Recursos que transformou os dados de fala em Sequência de Recursos, que foi uma nova representação de recursos proposta neste estudo, e um Mecanismo de Avaliação de AD que gerou a pontuação de ter AD. O fluxograma do sistema é mostrado na Fig. 1.

>

Figure 1

O fluxograma do sistema.

Procedimento de coleta de dados

Procedimento de coleta de dados do nosso sistema foi o seguinte. Primeiro, o usuário estava sendo instruído sobre a forma e o fluxo dos testes neuropsicológicos subseqüentes em pessoa. Em seguida, o usuário foi solicitado a sentar-se em uma mesa colocada com um microfone e um par de alto-falantes em cima. Com um total de seis testes neuropsicológicos selecionados por sessão, a descrição de cada teste neuropsicológico foi tocada durante 30 segundos, e foi seguida por uma janela de resposta de 1 minuto. Os dados da fala foram gravados apenas durante esse período de um minuto. No total, foram necessários menos de 10 minutos para completar uma sessão.

Seleção do teste neuropsicológico

Três tipos de teste neuropsicológico foram selecionados em nosso sistema, que foram o teste de fluência19,20,21, o teste de descrição de imagem22,23,24 e o teste de memória lógica25,26,27. A seleção foi baseada na avaliação neuropsicológica realizada em um ambiente clínico, bem como em pesquisas bem conhecidas sobre AD. Estes testes provaram ser eficazes na caracterização das principais características da DA, que eram todos problemas muito diferenciáveis.

Teste de fluência

O procedimento do teste de fluência foi o seguinte. Dada uma categoria designada, foi pedido ao sujeito que dissesse o maior número possível de palavras diferentes relacionadas com essa categoria durante um tempo limitado. Por exemplo, se a categoria era animal, as respostas possíveis eram elefantes, tigres, zebras, etc. No nosso sistema, a categoria de animal e fruta foram escolhidas, e o tempo limite para cada categoria foi de um minuto.

Picture description test

O procedimento do teste de descrição da imagem foi o seguinte Dada uma figura apresentada, foi solicitado ao sujeito que descrevesse o cenário na figura da forma mais detalhada possível durante um tempo limitado. Por exemplo, a seguinte descrição foi uma resposta possível. Esta é uma figura que mostra uma noite típica de uma família. Papai está assistindo beisebol, e mamãe está tricotando um lenço. A hora atual é …, etc. Em nosso sistema, uma foto de um estudo relacionado realizado no Japão28, que compartilhou conosco um histórico cultural semelhante, e outra da Bateria de Afasia Ocidental (WAB)29 são escolhidas. O tempo limite para cada imagem também foi de um minuto.

Teste de memória lógica

O procedimento do teste de memória lógica foi o seguinte. Uma pequena história foi lida em voz alta para os participantes e, depois disso, foi pedido ao sujeito que recordasse espontaneamente a história da forma mais precisa possível. Em nosso sistema, duas histórias da Escala de Memória Wechsler III (WMS-III)30 foram incluídas para análise. Embora não houvesse limite de tempo para testes de memória lógica em uma configuração clínica, um limite de tempo de um minuto ainda foi aplicado em nosso sistema por uma questão de consistência.

Representação de características – sequência de características

Desse modo como muitas das literaturas existentes12,13,14,15,16,17,18, nosso objetivo era projetar uma representação que pudesse implicitamente incorporar características de uma só vez. O que nós criamos foi uma seqüência de fichas, onde cada ficha era responsável por representar um elemento único no discurso. Usando tal representação, a pausa poderia ser identificada por um símbolo de silêncio ou um símbolo de pausa preenchido, a repetição poderia ser identificada por símbolos que se repetem ao longo da sequência, e a disfluência pode ser identificada pela ocorrência alternada entre os símbolos de silêncio e outros símbolos. Além destas três características-chave, muitas outras características derivadas úteis discutidas na literatura existente13 também podem ser identificadas. Por exemplo, o comprimento e a velocidade da fala foram ambos proporcionais ao número de fichas na sequência. Mesmo algumas das características dependentes do contexto, como o número de palavras únicas e palavras de baixa frequência, podem ter o potencial de serem inferidas a partir da distribuição de fichas porque cada ficha pode ser uma aproximação bastante próxima de uma palavra específica. Estas propriedades tornaram o nosso design totalmente capaz de retratar a fala dos pacientes com DA, que era um excelente candidato para tarefas como detecção e avaliação da DA. A sequência de fichas é referida como a Sequência de Característica nos seguintes conteúdos.

Para satisfazer os critérios da Sequência de Característica, as fichas candidatas possíveis eram fonemas, sílabas, palavras, afirmações, etc. A principal consideração para selecionar o candidato ideal foi adequação, treinabilidade e generalizabilidade. A adequação era a forma adequada como os tokens podiam manifestar as características chave. Isto excluía o fonema, uma vez que ele é a unidade mínima de fala, portanto, haveria muitos tokens recorrentes, o que poderia ser enganoso ao identificar a repetição, uma vez que ela poderia ter origem na mesma palavra ou em palavras diferentes. A treinabilidade era como era possível construir um classificador para avaliação de AD baseado na Sequência de Característica e um gerador automático de Sequência de Característica. Isto excluía a possibilidade de se fazer uma afirmação, uma vez que era impossível recolher dados de treino suficientes. Finalmente, a generalizabilidade era como os tokens podiam incorporar dialetos regionais e o uso de linguagem mista em Taiwan. Esta palavra foi descartada uma vez que não existe sequer uma forma escrita oficial para taiwaneses e Hakka. Por outro lado, as sílabas do chinês mandarim, taiwanês e Hakka são muito semelhantes, o que o tornou generalizável.

Por isso, as sílabas foram a escolha dos nossos tokens. Além disso, como o chinês mandarim, o taiwanês e o hakka são uma língua monossilábica, só as sílabas podem conter muita informação sobre o conteúdo falado. Esta é uma atualização valiosa para a Sequência de Recursos porque era competente para incorporar tanto os recursos dependentes de acústica quanto os dependentes de contexto. ZhuYin, a forma mais popular de ortografia em Taiwan, foi usada para definir o espaço simbólico para a nossa Sequência de Recursos. De acordo com o dicionário mantido pelo Ministério da Educação de Taiwan, existem 1339 sílabas diferentes soletradas em ZhuYin, e apenas 317 entre elas são retidas após descartar marcadores de tom, ou seja, ‘, ˇ, `, ˙, e unidades fonéticas similares, ou seja, , para aumentar a treinabilidade, diminuindo o espaço simbólico; além disso, a generalização também seria aumentada porque surgiriam menos efeitos adversos causados por sotaques diferentes, pois tons diferentes eram agora agrupados e vistos como uma única unidade. Uma ficha silenciosa também é adicionada ao espaço da ficha. No entanto, porque há apenas uma ficha indicando silêncio no espaço da ficha, um limiar para julgar se um segmento de silêncio deve ser transcrito para uma ficha de silêncio com base em seu comprimento precisava ser determinado. Eventualmente, o espaço simbólico para a sequência de caracteres foi 318,

Gerador de sequência de caracteres

Dados os dados de fala recolhidos como entrada, havia duas formas de gerar a sequência de caracteres: uma era feita manualmente por marcação humana, enquanto a outra era feita automaticamente por um modelo. O modelo de escolha foi um Convolutional Recurrent Neural Network (CRNN) treinado pela Connectionist Temporal Classification (CTC) loss31.

Model architecture

Em nosso sistema, a entrada do modelo foi a energia do banco de filtros de log de 80 dimensões extraída com uma janela de 25 ms e um hop size de 10 ms. Além disso, a Média Cepstral e a Normalização de Variância (CMVN)32 foi aplicada para normalizar as energias derivadas. A arquitetura do Gerador de Sequência de Característica foi inspirada principalmente pelo modelo de reconhecimento de fala de ponta a ponta avaliado em inglês e chinês mandarim, ou seja, o Deep Speech 2 da Baidu, Inc.33. Alguns dos principais destaques do Deep Speech 2 estão resumidos como se segue. Primeiro, uma configuração bidirecional de Rede Neural Recorrente (RNN) melhoraria enormemente o desempenho do modelo. Segundo, a aplicação de camadas de convolução 2D antes do RNN poderia reorganizar o espectrograma, modelando a invariância da tradução temporal e a invariância espectral e reduzir o custo de computação da perda de CTC, diminuindo o número de escalas de tempo. Finalmente, a aplicação da normalização de lotes (BN)34 a cada camada aumenta a velocidade de treinamento e aumenta ainda mais o desempenho do modelo. No entanto, com recursos de hardware limitados em mãos, o Gerador de Sequência de Recursos tinha 3 camadas 2D-Convolucionais, seguidas por um RNN bidirecional de 5 camadas, e finalmente uma camada totalmente conectada. Para as camadas de Convolução, o número de filtros era 32, 32 e 96 respectivamente, o tamanho do kernel dos filtros era (11, 41), (11, 21) e (11, 21), respectivamente. Para cada camada do RNN, existiam 512 células GRU em ambas as direcções. Para a camada totalmente ligada, havia 318 (correspondem ao número de classes no espaço do símbolo da sequência de funções) + 1 (correspondem ao símbolo “em branco”) nós, e a função de ativação é uma função softmax. O BN também é aplicado em todas as 3 camadas de convolução, imediatamente antes da ativação. Entretanto, ao invés de aplicar o BN implementado no Deep Speech 2, a normalização de camadas (LN) é aplicada em todas as 5 camadas do RNNN porque o LN parece ser mais adequado do que o BN quando se lida com aplicações do RNN35. O diagrama de blocos do Gerador de Sequência de Característica é mostrado na Fig. 2.

>

Figure 2

O diagrama de blocos do Gerador de Sequência de Característica.

>

O treinamento do modelo

Para treinar o Gerador de Seqüências de Característica, quatro conjuntos de dados em chinês mandarim foram coletados, que foram Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38, e THCHS-3039. Somou um total de 307961 instâncias e 422 horas de dados. A duração média de cada instância foi de 7 segundos, e todas as instâncias acima de 10 segundos foram removidas do conjunto de treinamento porque seqüências de entrada mais longas têm uma chance maior de enfrentar a questão do gradiente de desaparecimento e explosão. A retropropagação através do tempo (BPTT) foi realizada utilizando Adam40 com uma taxa de aprendizagem de 0,0005 como o otimizador. O recorte de gradiente também foi aplicado para estabilizar ainda mais o treinamento, onde o gradiente máximo permitido foi de 400. O tamanho do lote foi definido em 32 durante todo o processo de treinamento, e o modelo foi treinado para 50000 iterações. Todos os pesos foram inicializados usando o inicializador normal Glorot41,

Estratégia de geração de sequência de características

Geração da sequência de características foi geralmente feita por decodificação gananciosa42. Todos os tokens, exceto o token de silêncio, podiam ser gerados selecionando aquele que tivesse o modelo máximo de saída em cada período de tempo. A fim de gerar o símbolo de silêncio, uma heurística simples foi projetada para determinar o comprimento do segmento de silêncio e se gerar um símbolo de silêncio com base no comprimento determinado. Primeiro, a saída do token em branco pelo Gerador de Sequência de Característica foi tratada como um silêncio ou pelo menos nada significativo. Depois, apenas um número acima de um determinado limite de fichas em branco consecutivas seria transcrito para uma ficha de silêncio. O limite poderia ser especificado em termos de segundos, ou seja, quantos segundos deveria ser um segmento de silêncio para que fosse tratado como um símbolo de silêncio. Como o tamanho do salto da entrada era de 10 ms, um símbolo de silêncio só seria transcrito quando houvesse pelo menos o limite (em termos de segundos) dividido por 0,01 de símbolos consecutivos em branco. Por exemplo, dado que o limite é de 3 segundos, um símbolo de silêncio só seria transcrito quando houvesse pelo menos 300 símbolos em branco consecutivos.

Motor de avaliação de doenças de Alzheimer

Dando a Sequência de Característica como entrada, que implicitamente contém a informação necessária para avaliação, a saída foi a pontuação de avaliação de ter AD. Nós formulamos a pontuação de ter AD com uma função de um conjunto de fichas na Sequência de características, como mostrado na equação seguinte:

$$score=f({s}_{1},\,\,{s}_{2},\,\ldots ,\,{s}_{T})\ em $$
(1)

onde st é o tth token na Sequência de Característica, e T é o comprimento máximo da Sequência de Característica. A pontuação de avaliação é um valor escalar que varia de 0 a 1, onde quanto maior for a pontuação de avaliação, maior é a chance de ter AD. Em vez de se fazer a seleção de recursos abundantes e selecionar os significativos através de análise estatística depois para treinar um classificador, a técnica de aprendizagem de máquina orientada por dados é utilizada para construir o nosso classificador. O modelo de escolha é um RNN.

Modelo de arquitetura

A um ponto de vista superior, o RNNN pode também ser geralmente formulado como:

$$${h}_{t+1},\,{y}_{t}=RNNN({x}_{t},\,{h}_{t})$$
(2)

onde xt é a entrada da timestep t, yt é a saída da timestep t, e ht é o estado oculto da timestep t do RNNN. É um ajuste perfeito para o nosso problema, uma vez que a sua força é a modelagem de sequência. A semelhança também pode ser vista ao comparar Eqs. (1) e (2) Acreditamos que depois de um RNN ter processado a Sequência de Característica substituindo xt em st, a saída da sua duração final, que também pode ser vista como uma mensagem codificada ou um vector de característica de toda a sequência, teria informação suficiente para classificar através de uma camada totalmente ligada, isto é,

$$score=\sigma (W{y}_{T}+b)$$
(3)

onde yT é a saída RNN do tempo final, W é o peso, b é o viés, σ é a função de ativação da camada totalmente conectada, e pontuação é a pontuação de avaliação de ter AD.

Com apenas dados limitados em mãos, a arquitetura do motor de avaliação de AD é projetada para ser o mais leve possível para aumentar a treinabilidade e diminuir a chance de excesso de ajuste limitando sua capacidade. Eventualmente, é um RNN bidirecional de camada única com 128 células GRU em cada direção, e a saída do tempo final em cada direção é concatenada e alimentada através de uma camada totalmente conectada para gerar a saída final, onde é um único valor escalar variando de 0 a 1. A função de ativação da saída da GRU é um tanh, e a do controle da porta GRU e a saída totalmente conectada é uma função sigmóide. O diagrama de blocos do Motor de Avaliação AD é mostrado na Fig. 3.

>

Figure 3
>>
>

O diagrama de blocos do AD Assessment Engine.

>

Model Training

Desde que a saída do AD Assessment Engine foi ativada por uma função sigmóide, ela varia de 0 a 1 e pode ser tratada como uma probabilidade. A etiqueta correspondente para cada saída era assim 0 para os sujeitos sem AD e 1 para os sujeitos com AD. A função de perda foi definida como a soma da entropia cruzada entre o output e a etiqueta de todas as amostras de treinamento em um lote. O BPTT é realizado usando Adam com uma taxa de aprendizagem de 0,001 como o otimizador. O tamanho do lote é definido como 16 ao longo de todo o processo de treinamento. Todos os pesos são inicializados usando o inicializador normal Glorot41,

Preparação de dados

O estudo apresentado foi aprovado pelo Comitê de Ética e Conselho de Revisão Institucional do Hospital Universitário Nacional de Taiwan. A coleta de dados e todos os métodos deste estudo foram todos realizados de acordo com as diretrizes e regulamentos aprovados. O consentimento livre e esclarecido por escrito foi obtido de todos os participantes.

Mandarin_Lu &Dados da NTU

Mandarin_Lu corpus do DementiaBank é um conjunto de dados contendo registros de entrevistas de 52 pacientes com DA em Taiwan43,44. A fim de corresponder aos dados coletados utilizando nosso procedimento de coleta de dados, os dados foram aumentados manualmente através da segmentação da resposta de primeiro minuto do sujeito. Apenas 30 sujeitos do conjunto de dados foram selecionados porque o restante ou foi inferior a um minuto ou interferiu consideravelmente com o entrevistador. Os dados selecionados incluem três testes neuropsicológicos, que são um teste de fluência de frutas, um teste de fluência de localização e um teste de descrição de imagem usando a imagem da WAB. Usando o procedimento de coleta de dados acima mencionado, outros 30 sujeitos cognitivos saudáveis (CH) foram recrutados por conta própria como um grupo de controle sob aprovação do conselho de revisão institucional do Hospital Universitário Nacional de Taiwan. Os testes neuropsicológicos usados durante nossa coleção são exatamente os mesmos que os selecionados do corpus Mandarin_Lu. Este conjunto de dados é chamado de conjunto de dados NTU. O número de amostras no conjunto de dados de Mandarin_Lu e NTU tanto para o teste de fluência da fruta como para o teste de fluência da localização é de 30 e o do teste de descrição da imagem é de 15,

NTUH Dataset

Embora uma combinação de dados de Mandarin_Lu e NTU tenha sido usada para estudar o sistema proposto, a dificuldade geral da tarefa não é tão difícil porque os dois grupos de teste são bastante diferentes um do outro em termos de suas habilidades cognitivas. Além disso, o ambiente de gravação e a qualidade da gravação também são muito diferentes. Finalmente, também não há acesso ao relatório médico do sujeito, por isso é incerto se algumas outras complicações ocorreram ao lado do AD. Para superar a fraqueza do conjunto de dados Mandarin_Lu e NTU, vinte sujeitos foram recrutados usando o procedimento de coleta de dados acima mencionado, onde 10 sujeitos são CH e 10 sujeitos são AD. Este conjunto de dados é chamado de conjunto de dados NTUH. O diagnóstico de AD leve foi baseado no critério NINCDS-ADRDA Alzheimer. Os participantes foram excluídos se tinham diagnóstico atual ou passado de distúrbio psiquiátrico, abuso de álcool ou drogas, distúrbio de aprendizagem, lesão cerebral conhecida com perda de consciência, hipotireoidismo não tratado, deficiência de vitamina B12, desarranjo metabólico ou qualquer deficiência visual ou auditiva significativa que impedisse a participação em testes neuropsicológicos. Com 6 testes neuropsicológicos por sujeito, houve 120 amostras de um minuto no total. A Tabela 1 relaciona a demografia dos sujeitos no conjunto de dados da NTUH. Os sujeitos foram recrutados por conta própria como um grupo de controle sob aprovação da comissão de revisão institucional do National Taiwan University Hospital.

Table 1 Subject information of NTUH Dataset.

Deixe uma resposta

O seu endereço de email não será publicado.