作者 | 文青 編輯 | CV君 報道 | 我愛計算機(jī)視覺(微信id:aicvml) Human Object Interaction Detection via Multi-level Conditioned Network 基于多層次條件網(wǎng)絡(luò)的人機(jī)交互檢測。論文地...
作者 | 文青
編輯 | CV君
報道 | 我愛計算機(jī)視覺(微信id:aicvml)
Human Object Interaction Detection via Multi-level Conditioned Network
基于多層次條件網(wǎng)絡(luò)的人機(jī)交互檢測。
論文地址: https://dl.acm.org/doi/abs/10.1145/3372278.3390671主要貢獻(xiàn)
作為場景理解的核心問題之一,人機(jī)交互檢測(human object interaction detection, HOID)的目標(biāo)是識別細(xì)粒度的特定對象的人體動作,這要求具有視覺感知和推理能力。現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的HOID方法利用了不同的視覺特征,無法滿足復(fù)雜的人機(jī)交互理解。為了提高CNN的推理能力,本文提出了一種新的多層次條件網(wǎng)絡(luò)(MLCNet),融合了額外的空間語義知識和視覺特征。具體來說,本文構(gòu)建了一個多分支CNN作為多級視覺表示的主干。然后將人體結(jié)構(gòu)和目標(biāo)上下文等額外知識編碼為條件,通過仿射變換和注意機(jī)制動態(tài)影響CNN的特征提取。最后,融合調(diào)制的多模態(tài)特征來區(qū)分相互作用。本文提出的方法在兩個最常用的基準(zhǔn),HICO-DET和V-COCO上進(jìn)行了評估。實(shí)驗(yàn)結(jié)果表明,本文的方法優(yōu)于現(xiàn)有的方法。具體實(shí)現(xiàn)
圖1 MLCNet的概述
,表示圖像,表示應(yīng)用一些現(xiàn)成的視覺感知模型來提取到的額外的空間語義知識,表示一起傳入模型MCLNet。 其中是為檢測到的HOI實(shí)例,其中和為檢測到的人與目標(biāo)的邊界框,屬于HOI類別集。一個HOI類別包含一個動作和一個對象,它們分別屬于相應(yīng)的動作集和對象類別集。
1. 額外知識的提取
MLCNet綜合利用語義信息、全局空間分布以及身體部位與目標(biāo)之間的關(guān)系進(jìn)行HOI推理。這些顯式知識作為純視覺特征和復(fù)雜語義之間的橋梁,有助于提高深度網(wǎng)絡(luò)的推理能力和可解釋性。
對象檢測
對于一幅圖像,應(yīng)用最先進(jìn)的目標(biāo)檢測模型FPN來獲得人和物體的位置和類別。檢測到的人類和對象實(shí)例分別被表示為和。人和對象實(shí)例作為HOI候選對象配對。對象類別是用一組在大規(guī)模語言數(shù)據(jù)集上預(yù)先訓(xùn)練好的高維詞向量表示的。
姿態(tài)估計
為了獲取人體的結(jié)構(gòu)信息,采用一種現(xiàn)成的多人姿態(tài)估計方法RMPE,該方法估計每個人體實(shí)例的個關(guān)節(jié)。每個身體關(guān)節(jié)表示為一個具有置信度值的坐標(biāo)。
人體解析
利用預(yù)先訓(xùn)練的人類解析方法WSHP生成一個與原始圖像寬度和高度相同的多通道概率圖,每個通道對應(yīng)的是特定類型的人體部位。與人體關(guān)節(jié)相比,該語義分割圖提供了更密集的像素級結(jié)構(gòu)信息,包括人體部位的形狀和邊緣。
2. 多層次的視覺特征
本文構(gòu)建了一個多分支CNN作為MLCNet的主干。該網(wǎng)絡(luò)結(jié)構(gòu)對全局上下文、交互階段、實(shí)體和身體部位的綜合視覺信息進(jìn)行編碼,并對應(yīng)分支進(jìn)行獨(dú)立優(yōu)化,能夠在訓(xùn)練階段有效地學(xué)習(xí)不同的外觀分布。
具體方法
首先生成整個圖的全局特征,其中包含一系列共享的殘差塊和特征轉(zhuǎn)換塊,如圖1所示。BaseBlock和ResBlocks是ResNet的標(biāo)準(zhǔn)模塊;FTBlock融合了人體結(jié)構(gòu)信息和全局視覺特征。在此基礎(chǔ)上,根據(jù)交互短語、人類、目標(biāo)和身體部位的區(qū)域,裁剪,從而提取多層次的視覺特征包括和,并傳遞到相應(yīng)的分支中。ROI對齊后的特征和的大小為,這里和表示通道的寬度和數(shù)量。為了提取細(xì)粒度的人體結(jié)構(gòu)視覺特征,本文通過將每個被檢測的人體實(shí)例的個身體部位劃分為個組。對所有個身體部分應(yīng)用ROI對齊。由所有裁剪后的身體部分特征以通道方式連接而生成,其形狀為。為了突出顯示與某個對象相關(guān)的信息性主體部分,需要將主體部分的注意力應(yīng)用于。除了視覺特征和,本文進(jìn)一步補(bǔ)充了一個整體的上下文特征來編碼全局場景,是通過池化整個圖像的CNN特征(如)生成的。合并的功能被輸入到場景分支中,其結(jié)構(gòu)與前面提到的分支相同。有了全局上下文特征,層次的可視化表示可以更加全面。最后,對所有視覺特征應(yīng)用全局平均池化,生成特征向量作為分類器的輸入。3. 多層次調(diào)節(jié)
本文采用了多級條件作用機(jī)制,進(jìn)一步提高了前述多分支CNN的推理能力。具體來說,該方法將全局圖像特征、交互階段特征和人體部位特征與人體結(jié)構(gòu)和對象上下文的空間語義信息動態(tài)交替。
全局作用
利用身體部位分割圖作為全局條件來增強(qiáng)整個圖像的全局視覺特征。將分割圖輸入條件網(wǎng)絡(luò),生成多級條件特征,同時對不同尺度下人體部位的相對位置和形狀進(jìn)行編碼。
圖1顯示了全局條件網(wǎng)絡(luò)的概述。它由四個連續(xù)的卷積塊組成,與CNN的主干塊數(shù)目相同。第一個條件塊與CNN主干的BaseBlock結(jié)構(gòu)相同,下面的條件塊包含三個使用1×1內(nèi)核的卷積層,其中存在兩個LeakyReLU激活層。
值得注意的是,條件特征始終與相應(yīng)的視覺特征進(jìn)行空間對齊。在CNN主干的每一個塊之后,通過一個特征變換塊來實(shí)現(xiàn)全局條件化,如圖1所示,它結(jié)合了相同尺度的視覺特征和條件特征。
如上圖所示,F(xiàn)TBlock的特征變換層采用仿射變換,將輸入的視覺特征和調(diào)制參數(shù)動態(tài)交替。參數(shù)由取人體狀態(tài)特征的映射函數(shù)生成:
其中通過使用1×1內(nèi)核和LeakyReLU激活使用雙卷積層實(shí)現(xiàn),表示按元素乘法。
特征變換塊(FTBlock)被稱為:將視覺特征和狀態(tài)特征與殘差函數(shù):
融合。由連續(xù)殘差和變換塊生成的全局特征,用于提取上一節(jié)中提到的多級視覺特征。
局部作用
局部交互短語是圖像中緊密包圍目標(biāo)的一個信息相對豐富的區(qū)域。然而,由于人的對象實(shí)例和上下文的多樣性,交互階段的外觀多樣性是巨大的,單純的視覺特征是不足以捕捉的。因此,本文構(gòu)造了一個人-物配置圖來指導(dǎo)局部調(diào)節(jié)下的交互階段特征提取。
具體,首先將人的實(shí)例分成組,身體部分用一組具有適當(dāng)邊距的對應(yīng)體關(guān)節(jié)組周圍的邊界框表示。
由于局部條件作用是在全局特征中裁剪出來的局部視覺特征上進(jìn)行的,因此無法保留形狀、邊緣等細(xì)粒度的空間細(xì)節(jié)。本文生成一個box級人體-對象空間配置圖如下,作為局部條件,編碼人-物對的相對位置,所有人體部位擁有個通道。每個通道都是一個二維的二元矩陣,具有相同大小的相互作用短語。包圍框內(nèi)的數(shù)字設(shè)為1,否則設(shè)為0。
將配置圖輸入局域條件網(wǎng)絡(luò)生成局域條件特征。局域條件網(wǎng)絡(luò)由四個1×1內(nèi)核的卷積層組成,其中存在三個LeakyReLU激活層。局部條件作用采用局部特征變換模塊實(shí)現(xiàn),其結(jié)構(gòu)與相同:
與全局條件作用相比,局部條件作用可為特定的HOI候選人提供更具體的空間語義引導(dǎo)。
身體部位的注意力機(jī)制
從不同身體部位提取的視覺特征需要給予不同的關(guān)注。通過將目標(biāo)對象類別的單詞向量v輸入到一個完全連接的網(wǎng)絡(luò)中,生成注意力權(quán)重:
其中為LeakyReLU激活函數(shù),為項(xiàng)目參數(shù),為偏置項(xiàng),
。
由于在大規(guī)模語言數(shù)據(jù)集上預(yù)先訓(xùn)練的詞向量對對象的功能進(jìn)行了編碼,因此知識可以在功能相似的不同類別的對象之間傳遞。將得到的注意權(quán)重應(yīng)用于身體部位的視覺特征:
其中,是包圍框根據(jù)第i個身體部位從裁剪的特征。
將人體各部位加權(quán)和原始特征融合如下:
其中為通道級聯(lián)。對象上下文注意可以有效地改善人體部位的視覺特征
4. 多通道特征融合
除了多級視覺特性外,本文還進(jìn)一步增加了一個相對位置特征和一個目標(biāo)上下文特性。以人-物配置圖作為輸入,由兩個卷積層最大池化后生成。常被HOID方法用來編碼交互階段中圍繞人和對象實(shí)例的邊界框的相對位置;可以捕獲不同對象之間的特征相似度。
這些特征都被輸入到獨(dú)立的全連接分類器中,這些分類器的輸出被sigmoid函數(shù)歸一化,以估計所有對象無關(guān)的動作的概率。然后采用基于iCAN的后期融合策略,融合所有分支的置信度{δ}和HOI候選對象中被檢測到的人與目標(biāo)的置信度值(和)如下:
其中?δ為動作的融合置信向量,δ的上標(biāo)表示對應(yīng)的特征類型。則為HOI類別σ的置信度值。
值得注意的是,考慮到HOI的類別空間可能相當(dāng)大,要獲得足夠和平衡的訓(xùn)練數(shù)據(jù)是不現(xiàn)實(shí)的。我們將HOI類別分解為動作和對象,并獨(dú)立地識別它們。該方法可以處理大規(guī)模類別空間和長尾數(shù)據(jù)(類別數(shù)量嚴(yán)重不平衡)分布。此外,交互知識可以在不同對象之間傳遞,這使得零命中HOID成為可能。
5. 模型訓(xùn)練
為每一步向模型輸入一個Mini批,Y表示與對象無關(guān)的動作標(biāo)簽,Ω是動作類別集合,y∈{0,1}。
由于一個人的實(shí)例可以對一個目標(biāo)對象實(shí)例施加多種類型的動作,HOI識別被表述為一個多標(biāo)簽分類問題。在訓(xùn)練階段,使用二元交叉熵?fù)p失函數(shù)BCE計算所有七個分支的獨(dú)立損失值:
在這里,小批量損失是一個總和,而不是平均值。它有效地避免了罕見類別中的樣本被忽略的情況,并且可以避免模型偏于頻繁出現(xiàn)的類別。
實(shí)驗(yàn)結(jié)果
成分分析結(jié)果
base包括人體分支、對象分支、身體部位分支、短語分支和空間分支;base -frozen是凍結(jié)了base的CNN主干,并在MS-COCO數(shù)據(jù)集上用預(yù)先訓(xùn)練的權(quán)值初始化主干,構(gòu)建的一個比較基線;其他包括場景分支(SB), 上下文分支 (CB), 全局條件 (GC),局部條件 (LC) 身體部分注意力分支(BPA),Ours=Base+CB+SB+BPA+LC+GC;通過第1~2行,結(jié)果表明,通過獨(dú)立學(xué)習(xí)不同層次的視覺模式,基于CNN的HOI識別可以得到很大的提高;通過第3~4兩行,結(jié)果表明,場景分支和上下文分支的有效性;通過第5 ~ 7行,全mAP的逐漸提高分別為0.07%、0.24%和0.17%,可知完整的模型在本次實(shí)驗(yàn)中取得了最佳的性能。結(jié)果表明,額外的空間語義知識提高了CNN的推理能力。性能對比
大部分結(jié)果都超過現(xiàn)有最好方法 PMFNet,這證實(shí)了利用額外知識作為條件可以有效地增強(qiáng)CNN對細(xì)粒度人機(jī)交互的推理能力;
本文方法map在rare和non-rare上的差異為1.73%,顯著低于RPNN的5.93%。這證實(shí)了所采用的知識轉(zhuǎn)移策略和損失函數(shù)能夠有效地抑制長尾訓(xùn)練數(shù)據(jù)和知識轉(zhuǎn)移的負(fù)面影響;
在不調(diào)整超參數(shù)的情況下,本方法的模型在V-COCO數(shù)據(jù)集上具有較好的性能,且訓(xùn)練時數(shù)較少,證明了該模型的魯棒性。
討論
為了對多余的空間語義知識進(jìn)行編碼,本文構(gòu)造了具有多個卷積層的條件網(wǎng)絡(luò),從而增加了參數(shù)的數(shù)量。為了學(xué)習(xí)不同視覺內(nèi)容的不同外觀分布,多分支結(jié)構(gòu)進(jìn)一步擴(kuò)大了網(wǎng)絡(luò)的規(guī)模,這需要大約6GB的GPU內(nèi)存進(jìn)行訓(xùn)練。此外,在一些涉及多個個體的復(fù)雜情況下,一些檢測到的HOI實(shí)例的信息量低于其他實(shí)例,這可能會給旨在描述圖像的主要視覺內(nèi)容的應(yīng)用程序帶來負(fù)面影響。然而,由于之前的工作沒有考慮到語義興趣的HOI標(biāo)注,現(xiàn)有的方法無法通過監(jiān)督學(xué)習(xí)從復(fù)雜場景中選擇信息最豐富的HOI實(shí)例。這一問題值得更多的關(guān)注,需要進(jìn)一步的數(shù)據(jù)收集和模型設(shè)計的探索。結(jié)論
為了彌補(bǔ)圖像的低層視覺特征與人機(jī)交互的高層語義信息之間的差距,本文提出了一種多層次條件網(wǎng)絡(luò),利用額外的空間語義信息作為條件來動態(tài)影響CNN的行為。
該方法融合了顯性先驗(yàn)知識和隱性視覺特征,實(shí)現(xiàn)了復(fù)雜、細(xì)粒度的視覺內(nèi)容理解。應(yīng)用現(xiàn)成的人體解析模型和姿態(tài)估計模型,獲取圖像中人體實(shí)例的身體結(jié)構(gòu)信息。本文還利用目標(biāo)檢測模型來獲取圖像中實(shí)體的位置和類別。額外的知識通過條件網(wǎng)絡(luò)進(jìn)行編碼,用于指導(dǎo)視覺特征提取。
為了評估所提方法的有效性,我們在HICODET和V-COCO兩個公共基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法顯著優(yōu)于現(xiàn)有的多模型特征融合方法,驗(yàn)證了所提出的多級條件機(jī)制和多模型特征融合的有效性。