【文献調査】End-to-End Object Detection with Transformers
注意点
- 文献をざっくり読んでの個人的なまとめです。
読んだもの
Facebook AIブログ: ai.facebook.com
概要のまとめ
- Facebook AIが2020年5月26日に公開。公式ブログにも解説がある
- DETRの大きな特徴は2部グラフの損失とtransformerの組み合わせ
the main features of DETR are the conjunction of the bipartite matching loss and transformers with (non-autoregressive) parallel decoding
- 動画中のオブジェクトの関係を見る
DETR reasons about the relations of the objects and the global image context to directly output the final set of predictions in parallel
- 意訳:DETRはYoloで推定されるようなオブジェクトと動画中のそれぞれの画像の文脈を推理して最終の推定結果と一緒に出力する
- シンプルなEnd to Endなモデルを実現している
- 従来手法との比較([Facebook AI公式ブログ(https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers)より)
- 従来手法では逐次的に出す必要があり時間がかかるが、本手法であれば並行して出すことができるため速く高効率としている
- 物体検出の推定精度が向上する可能性がある
If DETR predicts that an image contains a person standing on the beach, for example, it knows that a partially occluded object is more likely to be a surfboard. In contrast, other detection models predict each object in isolation.
- 意訳:ビーチに人が立っていたら、部分的に写っている物体はサーフボードと認識しやすくなる。従来ではまったく独立のものとして推定していた。
結論のまとめ
- DETRは柔軟なアーキテクチャが可能
- self-attentionを使ったため大きな対象物を推定する際にはFast R-CNNより速い
- 最適化されたFast R-CNNと同等の結果が出た
所感
動画中のオブジェクトの関係を表すものかと思ったが、物体検出の改良の模様。
ただ、オブジェクトの関係を考慮して推定しているのはおもしろいと思った。
オブジェクトが一部隠れていても関係性を表せるようなので、特定の用途ではいい効果になるかもしれない。
関連知識
- 物体検出についての歴史まとめ - Qiita
- End to End学習
- Faster R-CNN
- Yoloより速度は遅いが精度は高そう
- ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
- autoregressive model 自己回帰モデル - Wikipedia
英単語
- reason about: 推理する
- panoptic: パノラマ的な
- cast: 投げる
- deduplicate: 重複排除する
- leverage:てこの力
- bipartite: 二部グラフ
- partially occluded: 部分的に遮蔽された
- simultaneously: 同時に
- bimodal: 二峰性の(ピークが2つあるようなグラフ、風を引いて熱が出て、収まって、また熱を出すみたいなことらしい)
- interpretability: 説明力
- heuristic: 経験則の
- conjunction: 結合、関連、組み合わせ