PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection 論文筆記
最近在研究fps較高的動作辨識論文,發現一派研究Human-Object-Interaction的領域,簡稱HOI。HOI的定義是triplet的組合:主詞(S) + 動詞(V) + 受詞(O)。
論文裡的例子是人+抽+菸,像是(e),做假動作的話,就不會誤判。(f)有S也有O,但是沒有互動,就適用於這樣的方法。
這篇PPDM是CVPR2020的論文,在單張Titan XP GPU上可達37fps,號稱是第一個real-time的HOI偵測方法。由下圖可以看出,PPDM在HICO-Det dataset上,在準確度與速度上都是最好的。
動機
過去HOI的研究方法大多是2 stages的:先生成human/object proposal,再將這些proposal分類。作者認為這類方法效能不佳,且因為proposal是獨立生成的,沒有善用到human/object之間的關係,所以效果也不好,因此提出了1 stage的PPDM,將human/object proposal合在同一個網路處理。
輸入與輸出
input是RGB圖片,output會得到每個human、object的bbox+物體的種類:下面例子中,category_id=1是人,category_id=62是板凳。(其實就是coco的object id)
還有一組hoi triplet result。大概像這樣,category_id代表interaction的id,object_id / subjct_id代表該物件的bbox id,還有這組hoi triplet的score。
方法
PPDM的方法大致分為3部分:
- Appearance Feature Extraction
- Point Detection Branch
- Point Matching Branch
Appearance Feature Extraction
使用Hourglass-104或DLA-34進行外觀的特徵萃取。
Point Detection Branch
- 預測S、V (interaction)、O的heatmap,並計算中心點
- 迴歸w、h、offset
這邊跟CenterNet的概念差不多,就不贅述。可以參考Objects as Points論文:https://arxiv.org/pdf/1904.07850.pdf。
Point Matching Branch
- 迴歸 V (interaction)與人跟物品的位移d (displacement)
- 配對S+V+O
左式代表interacion與human的位移,就是interaction的中心點座標-human的中心點座標。波浪代表是ground truth,如果是hat的話代表是預測值。
Matching的方法是基於兩個概念,對於每個interaction來說,
- coarse的human中心點 (action中心點-位移d)必須要很靠近 predicted human中心點(heatmap算出來的)。coarse的human中心點就是下圖紅框內的值。
- human的confidence越大越好。
那該interaction就會跟下方公式值最小的human做配對。同理,interaction與object的配對也一樣。
圖解來看,空心圓就是coarse的human/object中心點,interaction會和跟coarse中心點越近且confidence越高的human/object配對。就可以得到HOI的結果了。
同樣的概念,coarse與predicted的human/object中心點距離,也可以拿來當位移的Loass,不過論文好像打錯字了,這邊黃標處的上邊應該是hy。
Loss
最終loss由幾個部分組成
- interaction/human/object的point location loss (point-wise focal loss)
- 上述的interaction to human/object位移loss
- 還有heat map的offset loss
表現
PPDM在HICO-DET上,在mAP、FPS表現較其他方法優,除了PMFNet在Rare的種類的mAP更好之外。
這邊的mAP跟一般object detection的些微不同,它是以triplet維度去看是否為TP,要3個HOI的class皆正確,且human、object的bbox,gt和pred的IOU要大於0.5。
總結一下這個方法的使用心得:
優點
- HOI必須有S+V+O三個一組,所以一定要有受詞才能組成一組動作,可以防止動作辨識時假動作的誤判。
- Frame-wise比較快,論文號稱FPS=37 (Titan XP)。
限制
- Frame-wise,不適用於較複雜、較相似的動作。連續的應用場景,video-wise的方法結果較佳。
- HOI必須有S+V+O三個一組,但有些動作沒有受詞,例如人+跳起來,就不適用於這類方法。
- S與O的配對是用距離最小的成一對,如果S實際上在與較遠的O進行互動時,就會判錯。(如果兩S的confidence差不多的話)
參考文獻
- PPDM GitHub: https://github.com/YueLiao/PPDM
- PPDM Paper: https://arxiv.org/pdf/1912.12898.pdf
- CenterNet Paper: https://arxiv.org/pdf/1904.07850.pdf