Apple、吃音を検知するモデルを開発【AI×ヘルスケア】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

吃音症状が生活に与える影響とは

話すときに同じ音や単語を繰り返してしまう症状はすべての人に共通して見られ、特に吃音症状を持っている人によく見受けられます。頻繁に症状が発生してしまうと、コミュニケーションが困難になり、AlexaやSiriなどの音声認識システムに声を聞き取ってもらえない可能性もあります。

肉声の吃音症状を自動的に検知する機能は、音声認識システムの改善などに役に立ちます。しかしながら、既存の吃音症状の公開データセットは小規模なものです。また、人によって喋り方の流暢さが異なっているので、小規模なデータセットを用いてシステムを構築するのは難しいです。

既存の吃音症状のデータセットには小規模なものであり、モデルを構築できないという課題において、実際にどのような研究が行われているのでしょうか。AppleのColin Leaら研究者の発表を紹介します。

研究者らは、LSTMとCNNを組み合わせることによって、吃音症状検知のモデルを構築しました。

▼論文情報

著者:Colin Lea, Vikramjit Mitra, Aparna Joshi, Sachin Kajarekar, Jeffrey P. Bigham
タイトル:”SEP-28K: A Dataset For Stuttering Event Detection From Podcasts With People Who Stutter”
arxiv
URL:DOI

吃音データセット作成・モデル構築

まずはColin Leaらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
吃音症状を検知するモデルを構築する。

✔️解決手法
LSTMとCNNを組み合わせることによって、モデル構築を行った。

✔️結果
結果、モデル開発に成功し、改善後のモデルのF値が83.6となった。

ミッションから説明していきます。

吃音症状検知モデル構築・データセット作成

吃音症状を自動的に検知することができるシステムを構築することができれば、音声認識技術の開発・改善や臨床評価などに役に立つ可能性があります。しかし、人によって話し方の流暢さが異なり、状況や環境によって話し方に多くのバリエーションがあるため、吃音症状を検知するモデル構築は困難です。例えば音読しているときには症状はありませんが、会話中は症状が出てしまう人がいます。

下図は吃音症状がどのように表れるかを書き起こし、症状を色分けしたものです。音の繰り返し(橙)、感嘆詞(青)、発声の停止(緑)、または音声認識を困難にしてしまうその他の症状が含まれる場合もあります。

吃音症状の書き起こしと色分け

LSTM+CNNによりモデル開発

Colin Leaらは、LSTMとCNNを組み合わせることによって、モデル構築を行いました。

データセット

Colin LeaらはSEP-28kというデータセットを開発しました。データセット作成にはPodcastというサービスを用いました。これは、インターネットを通して配信された音声や動画・番組を視聴できるシステムです。吃音・発話障害などのキーワードで検索し、約40の番組と数百時間の音声を取得しました。この音声の多くは言語障害に関するものでしたが、吃音症状を持った人の音声は多く含まれていませんでした。

このうち40のエピソードを抽出し、合計で28,177個の短いクリップを作成しました。また、Colin LeaらはFluencyBankという公開データセットを用いています。吃音症状を持っている、成人を含む32人の音声のデータです。

個々人によって吃音症状が曖昧なので、データにラベル付けをすることは困難です。ラベル付けは3人によって手動で行われ、5つの吃音症状に分けられました。FluencyBankデータセットのラベル付けを統一するため、提供されたラベル付けを無視し、SEP-28kと同じ手順を踏んで4,144クリップにラベル付けしました。

モデル構築

Colin Leaらはベースのモデルとして、T Kourkounakisらが提案した単一LSTMモデルを用いています。このモデルを改良して、特徴ごとの畳み込み層を追加し、吃音症状を検知できるモデルを構築しました。このモデルをConvLSTMと呼びます。

ベースモデルの入力は40次元ですが、ピッチ、声の特徴や調音機能、音素確率などの特徴を追加しています。さらに、特徴ごとに畳み込み層を追加し、重みづけの方法を学習します。畳み込み層からの特徴マップは、Batch Normalization後に結合され、LSTM層に流れます。このモデルは2つの出力が可能になっていて、1つは吃音症状が出ているか正常であるかの2クラスの出力、もう1つは5つの吃音症状のうちどの時間にどれが発症しているかです。

吃音症状検知のフレームワーク

2クラスラベリングのモデルには交差エントロピー誤差が用いられていて、症状を検知するモデルには一致相関係数が使用されています。モデルのミニバッチサイズは256であり、最適化関数にはAdamが用いられています。初期学習率は0.01で、early stoppingが使用されています。

従来のモデルに比べパフォーマンスが向上

結果、改善後のモデルのF値が83.6となり、既存のモデルよりも良いモデルを構築することができました。

下表はモデルごとのパフォーマンスを比較しています。音の特徴を全て追加したとき、改善されたモデルで最高のパフォーマンスを得ることができます。評価指標にはweight accuracy・F値・等価エラー率が用いられています。等価エラー率は小さいほど良い指標になっています。

F_{Phone}: 音響モデルから抽出された音素確率
M_{FB}: ベースモデルの入力
F_0: ピッチ・ピッチデータ・声の特徴
A_{TV}: 調音の特徴

モデルのパフォーマンス比較

下表は吃音症状ごとのF値を表しています。話の間と言葉の繰り返しの検知のパフォーマンスは悪化しています。この吃音症状は、長く続く傾向があり、人によって多種多様なため、スコアの低下につながっている可能性があります。感嘆詞と音の延長は変動が少ない傾向があり、検出も簡単です。Colin Leaらが提案したSEP-28kデータセットによる訓練はFluencyBankよりも一貫して劣っていて、これは話し方の種類が多いからと考えられます。

吃音症状ごとのモデルのF1スコア比較

下図はSEP-28kとFluencyBank間のパフォーマンスを示しています。FluencyBankで訓練されたモデルとSEP-25kによって訓練されたものを比較すると、FluencyBankのF1スコアが24%向上しています。SEPデータセットの中の5,000個のデータを使用して訓練しても、16%ものスコアの向上が見られます。SEP-28kをは多くの話者からデータを取っていて、話し方のばらつきが多いため、良いスコアを出しています。

研究紹介は以上です。吃音症状が検知できるモデルが構築され、音声認識システムの精度向上が進み、良いアプリケーションが開発されると良いですね。


関連記事


業界/カテゴリー

PAGE TOP