Apple、AirPodsから「息切れ」を検出するAIを開発(AI論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

息切れからは心不全もわかる

息切れ(息苦しさ)は、多くの病気に共通する症状です。たとえば心不全は、安静時または運動時に発生する息切れの観点から分類が定義されています。呼吸器疾患などの患者は定量的に息切れの状況を評価するために、医療従事者と接触する必要があります。

息切れを客観的に検出する方法を確立すれば、この症状を認識する際の負担が軽減されることが期待されます。さらに、臨床現場で病気の進行が観察されるよりも前に患者の病状を医療従事者に知らせることが可能になるかもしれません。

息切れ具合を客観的に測定するという課題において、実際にどんな研究が行われているのでしょうか。AppleのAgni Kumarら研究者の発表を紹介します。

研究者らは、収集した呼吸音のデータを解析することで、AirPodsによって息切れの評価を可能にすることを試みました。

▼論文情報

著者:Agni Kumar, Vikramjit Mitra, Carolyn Oliver, Adeeti Ullal, Matt Biddulph, Irida Mance
タイトル:”Estimating Respiratory Rate From Breath Audio Obtained Through Wearable Microphones”
arXiv
URL:DOI

息切れの客観評価による疾患の診断

まずはAgniらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
客観的に息切れ具合を評価する。

✔️解決手法
呼吸音データに対してマルチタスク学習を行い、音から定量評価を行えるようにする。

✔️結果
音声から高精度で息切れの状態を予測することに成功した。

ミッションから説明していきます。

(目的)息切れの解析による手軽な疾患の予測

検出イメージ

急性の息切れは、喘息や心筋梗塞の際に起こることが多く、慢性の息切れは、心肺機能の低下や肥満、慢性閉塞性肺疾患(COPD)、うっ血性心不全(CHF)の際によく見らます。労作時の息切れは、死亡率の予測因子にもなっており、疾患の進行を評価・監視するための臨床指標として一般的に使用されています。
通常は患者が自身の呼吸状況を主観的に報告しますが、客観的な評価が可能になれば様々な疾患の早期発見につながります。

サーミスタ、呼吸計、音響センサーなどのセンサーは、人の呼吸パターンを最も正確に推定することができますが、日常的に使用するには不便な場合があります。これに対し、ウェアラブル・ヘッドフォンは、比較的経済的で、入手しやすく、快適に使用ができるため、これを用いた息切れ測定ツールの開発に注目が集まっています。

音声からの呼吸検出に関するこれまでの研究では、呼吸特性から健康な呼吸音と異常な呼吸音を区別したり特定の呼吸を検出することや、気管音を取得するための接触型センサーと、鼻呼吸記録を取得するためのスマートフォンのような非接触型センサーの両方からの呼吸率推定に焦点が当てられています。
本研究の目的は、ウェアラブルデバイスのマイクのような汎用性の高い非接触型センサーが、正常な呼吸と激しい呼吸を区別するのに十分な音声データを提供し、呼吸音のパターンを感知することで呼吸率を推定できるかどうかを検証することです。

(手法)ウェアラブルデバイスを用いたマルチタスク学習

Agniらは、マルチタスクのLSTMネットワークを学習させ、人の呼吸率の推定を行いました。

データ
Agniは、様々な強さの息のサンプルを得るために、運動時の活動に焦点を当てました。データを収集したのは、屋内と屋外の両方の環境にいる21人の健康な人たちです。参加者の年齢層は22歳から60歳までと幅広く、性別もほぼ均等に分かれています。
すべてのデータは、Apple社のAirPodsなど、マイク付きのヘッドフォンを使って記録されました。Apple社のAirPodsは、何百万人もの人々が所有し、電話での会話や運動中の音楽鑑賞など、さまざまな場面で利用されていることから、このようなウェアラブル製品が選ばれました。
参加者は、9分間のワークアウトの前、最中、直後、そして終了後のクールダウン中に1分間の音声クリップを4つ録音しました。
また、参加者には、音声クリップを記録する前後でApple Watchから得た脈拍数(BPM)を記録してもらいました。データ収集プロトコルを図1に示します。

データ収集プロトコル
図1 データ収集プロトコル

すべての音声セッションは、1つのセグメントに少なくとも1回の呼吸サイクルが含まれるように、4〜7秒の間でランダムな長さに分割しました。3003のセグメントは、手動で呼吸のアノテーションを行いました。このアノテーション作業では、各音声サンプルで聞くことのできる吸気・呼気のサイクル数を数え、その呼吸数をクリップの長さ(分)で割ることで、1分あたりの呼吸率で表します。
タイプ1のセグメント299個、タイプ2のセグメント457個、タイプ3のセグメント762個、タイプ4のセグメント285個、およびランダムに選ばれた1200個のセグメントがアノテーションされ、真の値となりました。
図2(a)のスペクトログラムでは、正常な呼吸を示す2つの顕著な吸気信号が観察されますが、高調波構造はありません。図2(b)の激しい運動のサンプルでは、激しい呼吸と関連して、より頻繁なエネルギーバーストが見られますが、高調波構造は見られず、より高い呼吸率とより大きな背景ノイズの両方を示しています。

呼吸音のスペクトログラム
図2 呼吸音のスペクトログラム

これらの観察結果は、通常の呼吸と激しい呼吸を区別するために時間的なスペクトル表現を使用することを後押しするものであり、機械学習モデルとして時間的な畳み込みとリカレント層の使用を決定させるものでした。
合計で3000以上のアノテーションされたオーディオ信号が分析されました。

分析
参加者のエクササイズは、ランニング、バイク、HIIT(高強度インターバルトレーニング)、体操、早歩き、坂道歩きなど、さまざまな強度で行われました。オーディオサンプルの60%は屋内で、40%は屋外で録音されました。その結果、呼吸音のみ、あるいは呼吸音とノイズが混在しているなど、完全にノイズではないデータの多くは、呼吸が最も多い運動中や運動直後に採取したサンプルであることがわかりました。さらに、運動環境や家庭用運動器具の違いにより、参加者の騒音寄与率が大きく異なっていました。また、運動と運動の間に休憩を挟むと、完全に無酸素状態になるまでの時間が短くなるため、時間的に近接して運動を繰り返したユーザーのデータは、安静時の呼吸率や脈拍が通常よりも高くなる傾向があります。

図3では、参加者の呼吸数と脈拍数が、エクササイズの段階に応じてどのように変化するかを表しています。予想の通り、脈拍数の中央値はステージ1と4が2と3よりも低く、2の脈拍数は3よりも高い。呼吸率も同様に変化し、達成された高い呼吸率は同様の研究で収集されたものと一致します。なお、白い円は、それぞれ1つの音声セグメントに対応しています。

運動中の呼吸率と脈拍数
図3 運動中の呼吸率と脈拍数

システム概要
Agniらは、音声ストリームをパラメータ化するためにメルフィルタバンクエネルギー(MFB)音響特徴を用いて、LSTMネットワークとTime-convolutional LSTM (TC-LSTM)ネットワークをマルチタスク学習させました。
今回の研究では、時間分解層で処理されたフィルタバンクのエネルギーを初めて利用しました。このような設定は、信号のエンベロープレベルの情報と、呼吸の情報をよりよく評価するためのより長い時間のコンテキストの両方を捉えるのに有効であると考えています。学習ネットワークはエンド・ツー・エンドのモデルで、回帰と分類の両方のタスクを同時にこなすという点で標準的ではありません。

音響モデリング
リカレント層とエンベッディング層に16、32、64個のニューロンを配置した単層LSTMを用いました。このネットワークには3つの出力があります。
・呼吸率と呼吸数の推定値に対応する2次元の出力
・無呼吸、普通の呼吸(呼吸数が5〜30回/分)、荒い呼吸(呼吸数が30回以上/分)というクラスを反映した3次元の出力
・ 雑音がある場合とない場合の2次元の出力
図4に示したモデルは、複数の目的関数を持つMTLネットワークとして学習されたもので、上述の3つの出力から呼吸率推定、荒い呼吸検出、ノイズ検出を行うタスクとなっています。

LSTMを用いたマルチタスク学習の概要
図4 LSTMを用いたマルチタスク学習の概要

モデルの学習に使用された音声セグメントの長さは様々で、長さの異なる2つのセグメントの呼吸率は同じでも呼吸数は異なる可能性があるため、呼吸数をマルチタスク目的関数の目標として含め、モデルが時間的な長さを超えて一般化し、呼吸数と呼吸率の間の相関を学習できるようにしました。
各タスクの個々の損失は、呼吸率と呼吸数の出力にはCCC(コンコーダンス相関係数)損失を、呼気とノイズの分類タスクにはCE(クロスエントロピー)損失を使用しています。

(結果)音声から息切れ状態の特定に成功

結果、高い精度で人間の息切れの状態を予測することに成功しました。

モデルサイズについては、リカレント層と埋め込み層に16、32、64個のニューロンを持つLSTMモデルを使用ました。評価指標としては、分類タスクではF1スコア、回帰タスクではCCCを用いました。
表1はモデルサイズによる性能の違いを示したもので、LSTM層に32個のニューロン、埋め込み層に32個のニューロン、ノイズ埋め込み層に8個のニューロンを持つモデルが検証セットと評価セットの両方で最も高い性能を示しました。

表1 MTL-LSTMネットワークのCCC、PPMCC (ρ)による呼吸率推定
および検証セットと評価セットにおける呼吸音とノイズの分類タスクのF1スコア

MTL-LSTMネットワークのCCC、PPMCC (ρ)による呼吸率推定
および検証セットと評価セットにおける呼吸音とノイズの分類タスクのF1スコア

一方、64個のニューロンを用いたモデルでは、検証セットと評価セットの間の性能差が32個のニューロンを用いたモデルよりも大きくなるなど、オーバーフィットが見られました。これはデータ量の制限によるものと考えられ、データ量が多ければより多くのパラメータを持つモデルを使用できる可能性があります。
次に、音響モデルに時間畳み込み層を設け、変調特徴量を別の特徴量表現とすることで、音声からの呼吸の検出がうまくいくかどうかを検討しました。表2はこれらの実験の結果を示したもので、LSTM層と呼吸埋め込み層に32個のニューロンを配置した。RRはCCCが0.76と高く、呼吸の検出精度も66%と高く推定された。

表2 評価セットのCCC、PPMCC(ρ)、呼吸率推定のMSEスコア
および呼吸分類タスクのF1スコア

 評価セットのCCC、PPMCC(ρ)、呼吸率推定のMSEスコア
および呼吸分類タスクのF1スコア

次に、異なるRRの範囲でRR推定がどのように変化するか、また、データを増強することでRR推定モデルの性能をどのように向上させることができるかを調べました。
屋外の呼吸音のデータには、風切り音や交通音などの自然な環境音が含まれていたため、屋内のデータには、家電製品の音を反映した定常音を20〜40dBsの信号対雑音比(SNR)で追加しました。各屋内データファイルには、10〜20dB、20〜30dB、30〜40dBの一様分布から選択された3つの異なるSNRレベルのノイズが追加されました。データ増強は、トレーニング・パーティションにのみ適用しました。
表3は、呼吸率が低い場合(15回/分未満)、中程度の場合(15~25回/分未満)、高い場合(25回/分以上)で、呼吸率推定の性能がMSEの観点からどのように変化するかを示しています。

表3 LSTMモデルおよびTC-LSTMモデルの呼吸率レンジにおけるデータ拡張前後のMSE

LSTMモデルおよびTC-LSTMモデルの呼吸率レンジにおけるデータ拡張前後のMSE値

データ拡張により、ほぼすべての呼吸率レンジでMSEが低減されたことがわかります。さらに、図5に示すように、データ増強の有無にかかわらず、女性と男性のテストセットにおいて、TC-LSTMモデルはLSTMモデルよりも優れた性能を示しました。興味深いことに、女性参加者の推定値は、ほとんどの場合、男性参加者の推定値よりも優れていました。これは解剖学的な呼吸開口部の違い、年齢分布、屋内と屋外で採取したサンプルの比率などが影響している可能性があります。

テストセットの女性および男性の様々な呼吸率範囲に対する性能(MSE)の比較
図5 テストセットの女性および男性の様々な呼吸率範囲に対する性能(MSE)の比較

これらの結果は、ウェアラブルマイクを用いて録音された音声から呼吸数を推定することができ、重度の呼吸状態の検出や、心肺機能の指標である呼吸数の経時変化のモニタリングが可能であることを示しています。また、単純な音の歪みを利用したデータ補強は、エラー率を低減するために効果的であることが実証されました。今回の結果は、より多くの研究者を対象とした呼吸器系の健康管理ツールの開発に役立つことが期待されます。

研究紹介は以上です。
新型のイヤホンは音楽体験を変えるだけでなく、健康管理方法を変えるテクノロジーのプラットフォームにもなるかもしれないですね。

業界/カテゴリー

PAGE TOP