【AI実装コード解説】「産業の排出煙を認識」(後編)物体認識レクチャー#2

   

こんにちは。メーカーで画像認識関連のソフト開発をしている、Y.OKAMOTOです。現場で働くかたわら、最新の技術を人々に届けることに関心を持ち、AIの論文を解説することにしました。

前回から、物体検出技術に着目したコード解説記事を4回にわたってお送りしております。企業や医療機関でコンピュータによる物体認識を扱っていきたい技術者や、技術を理解したい方々におすすめの連載です。

第2回目は、アメリカ・カーネギーメロン大学のYen-Chia Hsuらが発表している、産業に伴う排出煙の認識モデル解説の後編となります。

まだ前編をご覧になってない方は、先にそちらをお読みいただくと理解しやすいかと思います。

▶ 【AI実装コード解説】「産業の排出煙を認識!」(前編)物体認識レクチャー#1

排出煙の認識モデルとデータセットの提案

前編までの流れ

前編の記事では、Yen-Chia Hsuらが発表している、大容量ビデオデータセット:RISEで用いている煙排出認識のベースモデルであるInflated 3D ConvNet (I3DC)について説明しました。

今回は、Yen-Chia Hsuらが評価した5つのモデルのうちもっとも最良なモデル RGB-I3D-TCについて解説します。

動作環境について

動作環境は、前編の記事と同様で以下の通りです。

  • Ubuntu 18.04
  • CUDA 10.1
  • cuDNN 7.6.0

[Package]

  • Python 3.7
  • pip 2.22.0
  • opencv-python 4.1.1.26
  • opencv-contrib-python 4.1.1.26
  • matplotlib 3.1.1
  • scikit-learn 0.21.3
  • tb-nightly 2.1.0a20191103
  • tensorflow 2.0.0
  • future 0.18.2
  • moviepy 1.0.1
  • pandas 0.25.3
  • torchviz 0.0.1
  • torchsummary 1.5.1

RGB-I3D-TCモデルの概要

RGB-I3DC-TCは、前編で説明したI3DCのネットワーク層(Fig.1)の一番最後尾へTimeception(TC)層を追加するモデルです。

Timeception(TC)とは?
Timeception(TC)は、Noureldien Husseinらが報告している動作認識ネットワークモデルで、TCは、マルチスケールカーネルでネットワークを構築します。RGB-I3D-TCは、I3DCから得られた特徴量からTCで煙の動きを認識することになります。

この画像には alt 属性が指定されておらず、ファイル名は image-8.png です
Fig.1 I3DCのネットワーク構造

RGB-I3D-TCのコード解説

RGB-I3DC-TCの実際のコードで見ていきます。

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

業界ごとに記事を読む

さらに学ぼう!

PAGE TOP