交通騒音を予測するAIを海外研究者が開発【AI×環境】（論文解説）

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

最終更新日：2021/06/29

交通騒音による健康被害

国内でも騒音にまつわるトラブルは後を絶ちませんが、ヨーロッパではさらに、騒音公害は大気汚染に次いで2番目に死者の多い環境汚染であるとされています。

過度の騒音レベルにさらされると、さまざまな健康問題や高血圧症を引き起こし、睡眠の質の低下につながります。しかし、大気質や水質への関心に比べて、騒音公害に対する一般市民の関心はそれほど高くありません。

自動車メーカーは、顧客が車内での快適な運転を重視していることから、車外騒音よりも車内騒音の低減を重視しています。その大きさの限度は政府当局によって規制されていますが、騒音公害を軽減するためには、道路交通が環境に与える影響を評価する必要があります。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

騒音公害が引き起こす種々の課題を減らすために、実際にどんな研究が行われているのでしょうか。オーストリアにあるオーストリア技術研究所のXue Zhangら研究者の発表を紹介します。

研究者らは、交通騒音のモデルを分析することで、交通騒音の予測を試みました。

▼論文情報

著者：Xue Zhang, Helmut Kuehnelt, Wim De Roeck
タイトル：”Traffic Noise Prediction Applying Multivariate Bi-Directional Recurrent Neural Network”
Appl. Sci.2021, 11(6), 2714
URL：DOI

騒音の予測

まずはXue Zhangらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
交通騒音を予測したい。

✔️解決手法
交通データから騒音を予測するための最適な機械学習モデルを特定する。

✔️結果
EUの標準モデルを上回る精度を達成した。

ミッションから説明していきます。

（目的）騒音公害軽減の対策立案

国連欧州経済委員会によると、低・中出力エンジンを搭載した車両の通過騒音規制値は、すでに74dBAよりも低くなっています。騒音公害を軽減するためには、道路交通が環境に与える影響を評価する必要があります。
道路交通騒音モデルは、多くの時間と費用を要する測定キャンペーンができない場合に特に重要となります。またそれは、交通騒音と交通の特徴との関係を理解するのに役立つため、速度規制、交通量の削減、電気自動車やエコドライブの推進など、騒音公害を軽減するための適切な対策を立案することに用いることができます。

（手法）複数のRNNネットワークアーキテクチャの比較

Xue Zhangらはリカレント・ニューラル・ネットワーク（RNN）を用いて、交通騒音予測のための多変量時系列予測を行いました。

交通量、車両タイプ、受信機までの距離、車両速度、加減速などの交通特徴をモデルの入力変数とし、対応する交通騒音を出力変数とする。Gated recurrent unit (GRU)は，予測精度と計算量の両方においてLSTMと比較されます．本研究の目的は、交通特徴量を用いて交通騒音を短期的に予測できる最適な機械学習モデルを特定することです。

RNNの概要
時系列分析では、時間経過に伴う変数の挙動と相互作用が特に重要です。RNNは、図1に示すように、リカレント層にフィードバック・ループがあることから時系列データをモデル化するための一般的なアルゴリズムです。

フィードバックループは、時間の経過とともに「記憶」を維持します。「記憶」には、サンプルの時間的依存性が含まれています。
一般的なリカレントユニットには、単純RNN、LSTM、GRUの3種類があります。単純なRNNは、短期的な依存性しか扱うことができません。LSTMとGRUは、その複雑な構造のおかげで、音声認識やテキスト生成などの長期的な依存関係の問題にも適用できます。LSTMとGRUには，情報の流れを制御するための追加の「ゲート」があり、シグモイド関数で表されます。この関数によりどの情報を残すべきか、あるいは忘れるべきかを学習し、重要な情報をシーケンスの連鎖に沿って渡して予測を行います。この3つのユニットの仕組みを以下に示します。

図2に示すように、単純なRNNユニットはRNNの記憶として機能する隠れた状態だけを持っています。入力と前の出力が、tanh（双曲接線）活性化関数を通過するという単純な操作です。活性化関数とは、ニューラルネットワークの各ニューロンが有する入力から出力への数学的変換です。非線形の活性化関数により、ネットワークは非常に複雑なデータを学習し、最終的には正確な予測を達成することができます。

図3に示すように、LSTMでは、入力ゲート、忘却ゲート、出力ゲートの3つのゲートを用いて、情報がメモリセルに入るタイミング、脱落するタイミング、出力に送られるタイミングを制御します。「ゲート」はシグモイド関数で表されます。
ここで、メモリセル候補状態は、メモリセル状態の中間的な候補値を格納します。 LSTMは、勾配の流れに対する制御能力が非常に高いため、複雑さと追加の運用コストも伴います。

GRUは、LSTMのアーキテクチャを簡略化したものです（図4）。GRUには、更新ゲートとリセットゲートと呼ばれる2つの「ゲート」しかありません。更新ゲートは過去の情報をどれだけ引き継ぐ必要があるか、どの新しい情報を追加するかを決定します。リセットゲートは、過去の情報をどれだけ忘れるかを決定します。GRUは、追加のメモリセルを持たず、隠れた状態を直接利用して情報を伝達します。

RNNのアーキテクチャ
図5は提案する3種類のアークテクチャの概要です。異なる層にある灰色の丸い形のノードは、上述した再帰ユニットを表しており、単純なRNN、LSTM、GRUのいずれかです。

図５　RNNモデルのアーキテクチャ
(a) 多対一のアーキテクチャ、(b) 多対多のアーキテクチャ、(c) エンコーダ-デコーダアーキテクチャ

交通騒音モデリングは、シーケンスの各単一出力をベクトル化することで、異なる時間ステップに対応する1つのベクトルの要素として扱うことができるため、多対1問題として構築することができます（図5（a））。しかし、この方法では、時系列データを扱うRNNの利点が十分に生かされていません。というのも、ベクトル化によって時間次元の考慮が不要になるからです。この問題は、多対多のアーキテクチャとして構成することもできます（図5（b））。これは、この問題を説明するのに最も直感的で本質的な方法です。各時間ステップにおいて、入力された特徴変数とともに、対応するトラフィックノイズの出力が期待されます。出力の長さは、入力の長さと同じです。
一方、エンコーダー・デコーダー・アーキテクチャーは、出力と入力の長さが等しくない問題に対する一般的な解決策ですが、出力と入力の長さが等しい問題（図5（c））、すなわちこのBlanskoデータモデリングの問題にも実際に適用することができる。多対多のアーキテクチャとは異なり、エンコーダ・デコーダ・アーキテクチャでは、リカレント層の最後のタイムステップの隠れた状態のみが次の層に送られます。これにより、シーケンスの入力と出力の長さが等しくない問題にエンコーダ-デコーダ・アーキテクチャを適用することができます。

データ収集
Xue Zhangらは、チェコ共和国のブランスコにある町の中心部で、ラウンドアバウトの上でビデオ録画と音声録音を行いデータを収集しました（図6）。

ラウンドアバウトは、内径約23.5m、外径約38.2mの大きさです。ビデオ撮影は、音声録音と同時に行いました。フレームレート30fpsのHikvision社製IPカメラをラウンドアバウトの12階建てビルの屋上に設置・固定しました。録画は2日間にわたって行われ、合計で約9時間となりました。
音声の録音はビデオ撮影と同時に行われました。校正された5つの測定用マイクを地上から1.2 mの高さにあるラウンドアバウトのさまざまな場所に設置しました（図6および図7（a））。

図７　録音機材のセットアップ
(a)マイクの位置、(b)録音に使用した機器の写真

データ前処理
この問題では、交通特徴量を入力変数とし、これに対応する交通騒音を出力とします。学習を行うために、個々の車両の軌跡を交通特徴量に変換することが重要です。速度、加速度、減速度、受信者までの距離、車両カテゴリーのような個々の車両の特徴などのデータを用いて、機械学習モデルの学習に使用できる特徴変数を生成します。
統計的表現とヒストグラム表現のそれぞれの手法で生成します。統計学的手法では、各データリストから要約統計量が抽出されます。各特徴のデータ分布は、速度、加速度、減速度、マイクロフォンまでの距離の平均値、最小値、最大値、標準偏差、中央値、範囲、中点、歪度、尖度に変換されます。車両カテゴリーのリストについては、各タイムステップにおいて、リストの大きさに等しい数の車両がカウントされ、各車両カテゴリーの割合が計算されます。その結果、合計44個の特徴量が生成されました。

（結果）既存のEU標準モデルを上回る精度を達成

結果、高精度で騒音の予測を行うことができ、既存のEUの標準モデルを上回るモデルの開発に成功しました。

アーキテクチャによる結果の比較
エンコーダー・デコーダー・アーキテクチャーはシーケンス長を3に設定した場合に最良の結果を得ました。他の設定の場合、別の2つのアーキテクチャーと同等の性能を得るためには、層やニューロンの数を増やしたり、学習時間を長くするなど、ネットワークを複雑化する必要があり、計算コストが大幅に増加してしまいます。
図16は、これら3つのアーキテクチャから学習したモデルとテストデータの結果を、予測精度（図8（a））と計算効率（図8（b））の側面から比較したものです。

図８　異なるアーキテクチャにおけるGRUモデルの性能比較
(a)異なるアーキテクチャでの精度比較、(b)異なるアーキテクチャでの計算コスト比較

図8（a）に示すように、アーキテクチャー1と2の予測性能は，RMSEが約2.4dB、R2が約0.68と非常によく似ており、RMSEが約2.7dB、R2が約0.64のアーキテクチャー3の性能よりもわずかに優れていることが分かります。しかし、図8（b）に示すように、アーキテクチャー1ではモデルの学習に非常に長い時間がかかり、アーキテクチャー2の約10倍の計算時間を要しました。アーキテクチャー1は、バックプロパゲーションによってアーキテクチャー2の15倍のパラメータを学習し、アーキテクチャー1に基づくモデルは590,430個のパラメータを学習し、アーキテクチャー2に基づくモデルは38,701個のパラメータを学習しました。そのため、 RNNモデルの学習には、アーキテクチャ2を選択しました。

GRUとLSTMをさらに比較しました。テストデータを用いたGRUとLSTMの性能比較を図9に示します。

図９　GRUとLSTMの性能比較
（予測精度の指標：箱ひげ図と計算コストの指標：棒グラフ）

図9の箱ひげ図が示すように、各評価指標であるR2、調整R2、RMSE、MAE、MAPEの中央値と平均値は互いに似通っているものの、異なる評価指標の結果におけるLSTMの広がりがGRUモデルよりも大きいことが明らかになりました。ネットワークの構成が同じ場合、LSTMでは48,201個のパラメータを学習する必要があるのに対し、GRUでは38,701個のパラメータを学習するだけでよいです。前述のように、GRUモデルはLSTMを簡略化したものです。また、Blanskoの交通騒音データのモデリングにLSTMの代わりにGRUを使用しても、モデルの性能に追加のコストがかからないこともここで証明されています。したがって、GRU モデルとアーキテクチャ 2 (多対多) を組み合わせたものが、最終的な交通騒音モデルとなります。

最終モデルの評価
最終モデルをテストデータで検証しました。図10は、各日のある時間帯におけるSPL（音圧レベル）の予測と実際の測定値です。

図10　各日の選択された時間における、得られたSPLデータと推定SPLデータ
(a)初日の選択した時間でのモデル予測、(b)2日目の選択した時間でのモデル予測。

提案モデルは、実交通騒音レベルの動的変化の傾向を短い時間間隔で捉えていることがわかります。

EUの標準モデルとの比較
GRUモデルで得られた結果を、EU標準の交通騒音モデルであるCNOSSOSモデルとさらに比較しました。CNOSSOSモデルは、基準速度を70km/h、路面を石膏アスファルトと高密度アスファルトコンクリートとし、周波数範囲を125～4KHzのオクターブバンドで表したものです。車両は、軽自動車、中大型車、大型車、動力付き二輪車の4つのカテゴリーに分類されます。
CNOSSOS モデルは RMSE 7.143 ± 0.93 dB、MAE 5.703 ± 0.98 dB を達成しました。GRUモデルが達成したRMSEはCNOSSOSモデルよりも約4.7dB小さいことがわかりました。
この結果から、提案したGRUモデルは、交通騒音の短期予測において、CNOSSOSモデルよりも優れていると言えます。

このように正確な短期予測を実現する交通騒音モデルは、政策立案者が、道路交通によって引き起こされる騒音公害を軽減するために、速度制限、交通量制御、新しい交通インフラの評価など、さまざまな対策を実施するのに役立ちます。

研究紹介は以上です。

騒音予測を行うことで、より住みやすい街が作られることを期待したいですね。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

中村隼太

投稿者の過去記事

【Facebook】業界を揺さぶるポーズAI（論文解説）

Microsoft研究者らがチューリングテストの自動化に挑戦（AI論文解説）

AIDB

交通騒音を予測するAIを海外研究者が開発【AI×環境】（論文解説）