FeatureSequenceGeneratorとRecurrent Neural Networkを用いた発話に基づくアルツハイマー病の自動評価システム

システム概要

我々のシステムは主に3つの要素から構成されていた。 音声データを収集するデータ収集部、音声データを本研究で提案した特徴量表現であるFeature Sequenceに変換するFeature Sequence Generator、ADであることのスコアを生成するAD Assessment Engineである。 図1

Figure 1

システムのフローチャート

データ収集手順

データ収集手順は、次の通りであった。 まず、利用者が直接、用紙やその後の神経心理学的検査の流れについて説明を受けた。 次に、マイクとスピーカーが設置された机の前に座ってもらう。 1回のセッションで合計6つの神経心理学的検査を選択し、各神経心理学的検査の説明を30秒間流し、その後、1分間の回答ウィンドウを設けた。 音声データは、その1分間のみ記録された。

神経心理学的検査の選択

我々のシステムでは3種類の神経心理学的検査、すなわち流暢性検査19,20,21、画像描写検査22,23,24、論理記憶検査25,26,27が選択されていた。 このテストは、臨床の場で行われた神経心理学的評価と、ADに関する著名な研究に基づいて選択された。 これらのテストは、ADの主要な特徴を特徴付けるのに有効であることが証明されており、それらはすべて非常に区別しやすい問題であった。 指定されたカテゴリーが与えられると、被験者はそのカテゴリーに関連する異なる単語を限られた時間内にできるだけ多く言うよう求められた。 たとえば、カテゴリーが動物であった場合、考えられる答えは、象、虎、シマウマなどである。 我々のシステムでは、動物と果物のカテゴリーを選び、それぞれのカテゴリーの制限時間を1分とした。

絵描写テスト

絵描写テストの進行は次の通りである。 提示された絵が与えられ、被験者は限られた時間の中で、その絵の中のシナリオをできるだけ詳細に説明するよう求められた。 例えば、次のような記述が可能であった。 これは、ある家族の典型的な夜の様子を描いた絵です。 お父さんは野球を見ていて、お母さんはマフラーを編んでいます。 現在の時刻は…、など。 このシステムでは、文化的背景が似ている日本で行われた関連研究28からの画像と、WAB(Western Aphasia Battery)29からの画像が選ばれている。 2806>

Logical memory test

Logical memory testの手順は次の通りである。 短い物語を読み聞かせ、その後、被験者は自発的にその物語をできるだけ正確に思い出すように要求された。 本システムでは、Wechsler Memory Scale III (WMS-III) 30の2つの物語を分析対象とした。

特徴表現-特徴列

多くの既存文献12、13、14、15、16、17、18とは異なり、我々の目標は暗黙的に特徴を一度に具現化できる表現を設計することであった。 その結果、トークンの列ができあがり、各トークンは音声の中の1つのユニークな要素を表すことになりました。 このような表現を用いると、一時停止は無音トークンか充填ポーズトークンで、繰り返しはシーケンス中に繰り返し現れるトークンで、流暢性の欠如は無音トークンと他のトークンが交互に現れることで識別できます。 これらの3つの主要な特徴の他に、既存の文献13で議論されている他の多くの有用な派生的特徴も識別できます。 例えば、音声の長さと速度は、いずれもシーケンス中のトークン数に比例していました。 また、固有単語数や低頻度単語数などの文脈依存的な特徴も、各トークンが特定の単語にかなり近似している可能性があるため、トークンの分布から推測できる可能性があります。 これらの特性により、我々のデザインはAD患者の音声を十分に描写することができ、ADの検出や評価といったタスクの優れた候補となりました。 以下の内容では、トークンのシーケンスを特徴シーケンスと呼ぶ。

特徴シーケンスの基準を満たすために、可能な候補トークンは、音素、音節、単語、発話などであった。 最適な候補を選択するための主な検討事項は、適合性、訓練性、および一般化性であった。 適性とは、トークンがいかに適切に主要な特徴を現すことができるかということである。 音素は音声の最小単位であるため、繰り返しのトークンが多くなり、同じ単語や異なる単語から発生する可能性があるため、繰り返しの識別に誤解を招く恐れがあるため、音素は除外されました。 学習性とは、特徴列と特徴列の自動生成器をもとに、AD評価のための分類器を構築することがいかに実現可能であるかということです。 発話は十分な学習データを集めることができないため、除外されました。 最後に、一般化可能性とは、トークンが台湾の地域方言や言語混在をどの程度取り込むことができるかということです。 台湾語や客家語には正式な書き言葉が存在しないため、単語は除外した。 一方、北京語、台湾語、客家語の音節は非常に似ているため、一般化することができました。 さらに、北京語、台湾語、客家語は単音節言語であるため、音節だけで話し言葉の内容に関する多くの情報を含むことができる。 このように、音響に依存する特徴と文脈に依存する特徴の両方を具現化することができたのは、Feature Sequenceの価値あるアップグレードと言えるでしょう。 台湾で最も一般的な綴りである朱音は、我々のFeature Sequenceのトークンスペースを定義するために使用されました。 台湾教育部の辞書によると、ZhuYinで綴られる音節は1339種類あり、その中からトーンマーカー、すなわち´、ˇ、`、˙、および類似の音声単位、すなわちを削除して317種類だけを保持する。 のように、トークンスペースを小さくすることで訓練性を高め、さらに、異なる音調を1つの単位としてまとめることで、異なるアクセントによる悪影響が少なくなるため、一般化可能性も高まると思われる。 また、トークン空間には無音トークンが追加される。 しかし、トークン空間には無音を示すトークンが1つしかないため、無音区間の長さによって無音トークンに書き換えるべきかどうかを判断する閾値を決定する必要があった。 最終的に、Feature Sequenceのトークン空間は318となった。

Featureシーケンス生成器

収集した音声データを入力として、Feature Sequenceを生成するには、人間が手動でラベル付けする方法と、モデルによって自動的に行う方法の2つがあった。 2806>

Model architecture

本システムでは、窓サイズ25ms、ホップサイズ10msで抽出した80次元ログフィルターバンクエネルギーをモデルの入力としている。 さらに、導出されたエネルギーを正規化するためにCMVN(Cepstral Mean and Variance Normalization)32を適用した。 Feature Sequence Generatorのアーキテクチャは、英語と北京語の両方で評価された最先端のエンドツーエンド音声認識モデル、すなわちBaidu社のDeep Speech 2から主にインスピレーションを受けています33。 Deep Speech 2の主な特徴は、以下のとおりである。 まず、双方向リカレントニューラルネットワーク(RNN)の設定により、モデルの性能を大幅に向上させることができる。 次に、RNNの前に2次元畳み込み層を適用することで、時間的並進不変性とスペクトル不変性をモデル化してスペクトログラムを再編成し、タイムステップ数を縮小してCTCロスの計算コストを低減することができる。 最後に、バッチ正規化(BN)34を各層に適用することで、学習速度が上がり、モデルの性能をさらに高めることができる。 しかし、手元のハードウェアリソースが限られているため、Feature Sequence Generatorは3つの2D-Convolutional層、次に5層のBidirectional RNN、最後にfully-connected層を備えていました。 コンボリューション層では、フィルタの数はそれぞれ32、32、96で、フィルタのカーネルサイズはそれぞれ(11、41)、(11、21)、(11、21)であった。 RNNの各層について、GRUセルは両方向で512個であった。 完全連結層については、318(Feature Sequenceのトークン空間におけるクラス数に相当)+1(「空白」トークンに相当)のノードがあり、活性化関数はソフトマックス関数であった。 また、3つの畳み込み層全てにおいて、活性化の直前にBNを適用している。 ただし、RNNの応用ではBNよりもLNの方が適していると思われるため、Deep Speech 2で実装したBNを適用するのではなく、5層すべてのRNN層にLayer Normalization(LN)を適用している35。 図2

Figure 2

Feature Sequence Generatorのブロック図に示すとおりである。

モデル学習

特徴量生成器の学習には、Aishell36, Primewords Chinese Corpus Set 137, Free ST Chinese Mandarin Corpus38, およびTHCHS-3039という北京語のデータセットを収集した。 合計で307961のインスタンスと422時間のデータが収集された。 各インスタンスの平均時間は7秒であり、10秒以上のインスタンスはすべて学習セットから削除した。 学習率0.0005のAdam40を最適化器として用い、BPTT(Backpropagation through Time)を実施した。 また、学習をさらに安定させるために勾配クリッピングを適用し、最大許容勾配は400であった。 学習プロセス全体を通してバッチサイズは32に設定され、モデルは50000回の反復で学習された。 全ての重みはGlorot normal initializer41を用いて初期化した。

特徴列の生成戦略

特徴列の生成は一般にgreedy decoding42によって行われた。 無音トークンを除くすべてのトークンは、各タイムステップでモデル出力が最大となるものを選択して生成することができる。 無音トークンを生成するために、無音区間の長さを決定し、決定した長さに基づいて無音トークンを生成するかどうかを決定する簡単なヒューリスティックが設計された。 まず、Feature Sequence Generatorが出力する空白トークンを無音または少なくとも有意なものはないとして扱った。 そして、連続する空白トークンのうち、ある閾値以上の数だけを無音トークンに転写することになる。 この閾値は秒単位で指定することができる。つまり、無音トークンとして扱うためには、1つの無音セグメントは何秒であるべきか、ということである。 入力のホップサイズは10msなので、少なくとも閾値(秒単位)÷0.01の連続した空白トークンが存在するときのみ、無音トークンが転写されることになります。 例えば、閾値が3秒とすると、無音トークンは少なくとも300個の連続した空白トークンが存在するときのみ転写される。

Alzheimer’s disease assessment engine

評価のための必要情報を暗黙に含む特徴シーケンスを入力として、ADであるという評価スコアを出力とした。 ADであることのスコアをFeature Sequenceのトークンの集合の関数で定式化すると、以下の式になる。

$$score=f({s}_{1},\,{s}_{2},\ldots ,\,{s}_{T})\in $$
(1)

where st is the tth token in the Feature Sequence, and T is the maximum length of the Feature Sequence.ここで、stは特徴シーケンスに含まれるt番目のトークン、Tは特徴シーケンスの最大長である。 評価スコアは0から1までのスカラー値で、評価スコアが高いほどADである確率が高い。 分類器を学習するために、豊富な特徴量を手作業で作成し、その後統計分析によって有意なものを選択するのではなく、データ駆動型の機械学習技術を利用して分類器を構築しています。 選択されたモデルはRNNである。

モデルアーキテクチャ

より高度な観点からは、RNNは一般に次のように定式化することもできる。

${h}_{t+1},\,{y}_{t}=RNN({x}_{t},\,{h}_{t})$$
(2)

ここでxtはタイムステップtの入力、ytはタイムステップtの出力、htはタイムステップtのRNNの隠れ状態である。 RNNの強みはシーケンスモデリングであるため、我々の問題にぴったりである。 また、式(1)と式(2)を比較すると、その類似性がわかる。 (1)と(2) RNNがxtをstに代入してFeature Sequenceを処理した後、その最終タイムステップからの出力は、符号化メッセージまたはシーケンス全体の特徴ベクトルとみなすこともでき、完全連結層を介して分類するのに十分な情報を持っていると考えられる。 すなわち、

$$score=sigma (W{y}_{T}+b)$$
(3)

ここで、yTは最終タイムステップのRNN出力、Wは重み、bはバイアス、σは完全連結層の活性化関数、スコアはADを持っているという評価点である。

手元にあるデータが限られているため、AD Assessment Engineのアーキテクチャは、学習性を高め、容量を制限することでオーバーフィッティングの可能性を減らすために、できるだけ軽量になるように設計されています。 最終的には、各方向に128個のGRUセルを持つ単層の双方向RNNとし、各方向の最終タイムステップの出力を連結して完全連結層を通し、0から1までの単一のスカラー値である最終出力を生成する。GRU出力の活性化関数はtanhであり、GRUゲート制御と完全連結出力のそれは、シグモイド関数である。 AD評価エンジンのブロック図を図3に示す。

Figure 3

AD Assessment Engineのブロック図。

Model Training

AD評価機関の出力はシグモイド関数で起動されているので0から1まであり確率として扱うことができる。 したがって、各出力に対応するラベルは、ADのない被験者には0、ADのある被験者には1であった。 損失関数は、出力とバッチ内の全トレーニングサンプルのラベルの間のクロスエントロピー和として定義された。 BPTTは、最適化器として学習率0.001のAdamを用いて実施した。 バッチサイズは学習プロセス全体を通して16に設定される。 すべての重みはGlorot normal initializer41を用いて初期化されている。

データ準備

本研究は、国立台湾大学病院の倫理委員会と機関審査委員会によって承認された。 本研究におけるデータの収集とすべての方法は、すべて承認されたガイドラインと規則に従って実施された。

Mandarin_Lu & NTU dataset

Mandarin_Lu corpus from the DementiaBankは台湾の52人のAD患者からのインタビュー記録を含むデータセットである43,44. 我々のデータ収集手順で収集したデータと一致させるため、被験者からの最初の1分間の応答をセグメント化し、データを手作業で補強した。 残りの時間は1分未満であるか、面接者によってかなり妨害されたため、データセットから30人の被験者だけが選択された。 選択されたデータには、果物流暢性テスト、場所流暢性テスト、WABの画像を用いた画像記述テストの3つの神経心理学的テストが含まれている。 上記のデータ収集方法を用いて、国立台湾大学病院の機関審査委員会の承認のもと、さらに30名の認知的健常者(CH)を対照群として独自に募集した。 神経心理学的検査は、Mandarin_Luコーパスから選択されたものと全く同じものを使用した。 このデータセットはNTUデータセットと名付けられた。 また、Mandarin_LuデータセットとNTUデータセットのサンプル数は、果物・位置流暢性テストがともに30、画像描写テストが15である。

NTUH Dataset

提案システムのパイロットスタディでは、Mandarin_LuデータセットとNTUデータセットを組み合わせて用いているが、二つのテストグループの認知能力がかなり異なるため、タスク全体の困難さはそれほどでもない。 さらに、録画環境や録画の品質も大きく異なる。 また、被験者の診断書を見ることができないため、ADと同時に他の合併症が発生したかどうかは不明である。 このようなMandarin_LuデータセットとNTUデータセットの弱点を克服するために、上記のデータ収集手順でさらに20人の被験者を募集し、10人の被験者がCH、10人の被験者がADであることを確認しました。 このデータセットをNTUHデータセットと呼ぶ。 軽度ADの診断は、NINCDS-ADRDAアルツハイマー病診断基準に基づいて行った。 現在または過去に精神障害、アルコールまたは薬物乱用、学習障害、意識喪失を伴う既知の頭部損傷、未治療の甲状腺機能低下症、ビタミンB12欠乏症、代謝異常、神経心理学的検査に参加できない重大な視覚または聴覚障害がある場合は参加者から除外された。 1人の被験者につき6回の神経心理学的検査を行い、合計120回の1分間サンプリングが行われた。 表1にNTUH Datasetの被験者の人口統計データを示す。 2806>

Table 1 NTUH Datasetの被験者情報

コメントを残す

メールアドレスが公開されることはありません。