Googleの最先端技術を紹介!トップ学会「CVPR2020」で口頭発表された論文5選

   

世界のIT大手企業は「GAFA」と呼ばれており、GはGoogleを指しています。Google検索やGoogleマップなど、Googleのサービスは私たちの生活の隅々まで浸透しています。

そんなGoogleは世界トップのテクノロジー集団であり、AI研究も精力的に実施しています。

今回は、「CVPR」という権威的な学会にて、Googleが口頭発表した論文を紹介します!

そもそもCVPRとは?

最初に、CVPRについて少し説明しておきます。

CVPRの正式名称は「Computer Vision and Pattern Recognition(コンピュータビジョンとパターン認識)」です。Compuer Visionというのはロボット(コンピュータ)の視覚を指します。画像処理、映像処理の技術分野全般を指すことが多いです。

近年ではComputer Vision分野でAI技術を使う事が当たり前になってきているため、CVPRはAI関連のトップ学会の一つとして認識されています。

Googleが口頭発表した論文5つPICKUP

2020年度に開催されたCVPR 2020では、5865本の論文が投稿され、そのうちacceptされたのが1467本の論文でした。

この中から、Googleが口頭発表した5つの論文を紹介します。

1本目. SpeedNet: Learning the Speediness in Videos
2本目. Scalability in Perception for Autonomous Driving: Waymo Open Dataset
3本目. Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks
4本目. Dynamic Graph Message Passing Networks
5本目. Evolving Losses for Unsupervised Video Representation Learning

1本目:早送りされた動画を検出

動画の早送りの検出という問題設定自体が面白いと感じました。

タイトル:SpeedNet: Learning the Speediness in Videos(PDF
著者:Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Michal Irani, Tali Dekel
機関・国:Google Research、アメリカ

課題設定のポイント

動画の中で動いている物体の「速さ」を自動的に予測するのは、実は難しいタスクです。人間は、現実世界での物体の動きを事前知識として持っているので、早送りされた動画を認識することができますが、機械はそのような事前知識を持っていないので、認識することができません。

アプローチ・結果の面白さ

この論文では、動画が通常の速度で再生されているのか、それとも早送りされているのかを検出するために訓練された新しいディープネットワークであるSpeedNetを紹介しています。

SpeedNet は、手動のアノテーションを必要とせずに、自然な動画の大規模なコーパス上で自己教師あり学習されます。この単一の2値分類ネットワークがどのようにして物体の速度の任意のレートを検出するために使用できるかを示します。

複雑な自然の動きを含む広範囲の動画を対象に、SpeedNetによる予測結果を示し、それらの予測を行うために利用される視覚的手がかりを検討します。重要なのは動画の速度を予測することで、モデルが単純な動きを超えた強力で意味のある時空表現を学習することです。

これらの学習された特徴が、どのようにして自己教師あり学習型行動認識の性能を向上させ、動画検索に利用できるかを示します。さらに、動画の早送りを生成するためにSpeedNetを適用し、早送りされた動画に典型的なジリジリとした不自然な動きを少なくすることができます。

入力動画が与えられると、著者らの手法は動画内のオブジェクトの「速さ」を自動的に予測します。下:ダンサーの動画は、通常のスピードとスローモーション再生の間で交互に再生されており、時間の経過とともにスピード予測によって正しく捕捉されています。スピードと動きの大きさは違うということに注意する必要があります。著者らの手法の中核をなすのは、物体が通常の速度で動いているか、通常の速度よりも速く動いているかを検出する新しいディープネットワークであるSpeedNet(上)です。

2本目:自動運転向けの新たなデータセット

Google は自動運転にも力を入れています。そのGoogle発の自動運転のための2D映像と3DのLiDARデータからなるマルチモーダルな大規模データセットについての論文です。

タイトル:Scalability in Perception for Autonomous Driving: Waymo Open Dataset(PDF
著者:Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla, Aurelien Chouard, Vijaysai Patnaik, Paul Tsui, James Guo, Yin Zhou, Yuning Chai, Benjamin Caine, Vijay Vasudevan, Wei Han, Jiquan Ngiam, Hang Zhao, Aleksei Timofeev, Scott Ettinger, Maxim Krivokon, Amy Gao, Aditya Joshi, Yu Zhang, Jonathon Shlens, Zhifeng Chen, Dragomir Anguelov
機関・国: Waymo LLC 、アメリカ

課題設定のポイント

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

業界ごとに記事を読む

さらに学ぼう!

PAGE TOP