PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection 論文筆記

Dec 9, 2020

--

最近在研究fps較高的動作辨識論文，發現一派研究Human-Object-Interaction的領域，簡稱HOI。HOI的定義是triplet的組合：主詞(S) + 動詞(V) + 受詞(O)。

論文裡的例子是人+抽+菸，像是(e)，做假動作的話，就不會誤判。(f)有S也有O，但是沒有互動，就適用於這樣的方法。

這篇PPDM是CVPR2020的論文，在單張Titan XP GPU上可達37fps，號稱是第一個real-time的HOI偵測方法。由下圖可以看出，PPDM在HICO-Det dataset上，在準確度與速度上都是最好的。

動機

過去HOI的研究方法大多是2 stages的：先生成human/object proposal，再將這些proposal分類。作者認為這類方法效能不佳，且因為proposal是獨立生成的，沒有善用到human/object之間的關係，所以效果也不好，因此提出了1 stage的PPDM，將human/object proposal合在同一個網路處理。

輸入與輸出

input是RGB圖片，output會得到每個human、object的bbox+物體的種類：下面例子中，category_id=1是人，category_id=62是板凳。(其實就是coco的object id)

還有一組hoi triplet result。大概像這樣，category_id代表interaction的id，object_id / subjct_id代表該物件的bbox id，還有這組hoi triplet的score。

方法

PPDM的方法大致分為3部分：

Appearance Feature Extraction
Point Detection Branch
Point Matching Branch

Appearance Feature Extraction

使用Hourglass-104或DLA-34進行外觀的特徵萃取。

Point Detection Branch

預測S、V (interaction)、O的heatmap，並計算中心點
迴歸w、h、offset

這邊跟CenterNet的概念差不多，就不贅述。可以參考Objects as Points論文：https://arxiv.org/pdf/1904.07850.pdf。

Point Matching Branch

迴歸 V (interaction)與人跟物品的位移d (displacement)
配對S+V+O

左式代表interacion與human的位移，就是interaction的中心點座標-human的中心點座標。波浪代表是ground truth，如果是hat的話代表是預測值。

Matching的方法是基於兩個概念，對於每個interaction來說，

coarse的human中心點 (action中心點-位移d)必須要很靠近 predicted human中心點(heatmap算出來的)。coarse的human中心點就是下圖紅框內的值。
human的confidence越大越好。

那該interaction就會跟下方公式值最小的human做配對。同理，interaction與object的配對也一樣。

圖解來看，空心圓就是coarse的human/object中心點，interaction會和跟coarse中心點越近且confidence越高的human/object配對。就可以得到HOI的結果了。

同樣的概念，coarse與predicted的human/object中心點距離，也可以拿來當位移的Loass，不過論文好像打錯字了，這邊黃標處的上邊應該是hy。

Loss

最終loss由幾個部分組成

interaction/human/object的point location loss (point-wise focal loss)
上述的interaction to human/object位移loss
還有heat map的offset loss

表現

PPDM在HICO-DET上，在mAP、FPS表現較其他方法優，除了PMFNet在Rare的種類的mAP更好之外。

這邊的mAP跟一般object detection的些微不同，它是以triplet維度去看是否為TP，要3個HOI的class皆正確，且human、object的bbox，gt和pred的IOU要大於0.5。

總結一下這個方法的使用心得：

優點

HOI必須有S+V+O三個一組，所以一定要有受詞才能組成一組動作，可以防止動作辨識時假動作的誤判。
Frame-wise比較快，論文號稱FPS=37 (Titan XP)。

限制

Frame-wise，不適用於較複雜、較相似的動作。連續的應用場景，video-wise的方法結果較佳。
HOI必須有S+V+O三個一組，但有些動作沒有受詞，例如人+跳起來，就不適用於這類方法。
S與O的配對是用距離最小的成一對，如果S實際上在與較遠的O進行互動時，就會判錯。(如果兩S的confidence差不多的話)

參考文獻

PPDM GitHub: https://github.com/YueLiao/PPDM
PPDM Paper: https://arxiv.org/pdf/1912.12898.pdf
CenterNet Paper: https://arxiv.org/pdf/1904.07850.pdf

Action Recognition

Computer Vision

Written by Patty Wu

No responses yet

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams