色欲香天天综合网站,亚洲AV优女天堂熟女,色一情一乱一伦一区二区三欧美,日本久久综合久久综合

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法

作者 | 文青 編輯 | CV君 報道 | 我愛計算機(jī)視覺(微信id:aicvml) Human Object Interaction Detection via Multi-level Conditioned Network 基于多層次條件網(wǎng)絡(luò)的人機(jī)交互檢測。論文地...

作者 | 文青

編輯 | CV君

報道 | 我愛計算機(jī)視覺(微信id:aicvml)

Human Object Interaction Detection via Multi-level Conditioned Network

基于多層次條件網(wǎng)絡(luò)的人機(jī)交互檢測。

論文地址: https://dl.acm.org/doi/abs/10.1145/3372278.3390671

主要貢獻(xiàn)

作為場景理解的核心問題之一,人機(jī)交互檢測(human object interaction detection, HOID)的目標(biāo)是識別細(xì)粒度的特定對象的人體動作,這要求具有視覺感知和推理能力。現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的HOID方法利用了不同的視覺特征,無法滿足復(fù)雜的人機(jī)交互理解。為了提高CNN的推理能力,本文提出了一種新的多層次條件網(wǎng)絡(luò)(MLCNet)融合了額外的空間語義知識和視覺特征。具體來說,本文構(gòu)建了一個多分支CNN作為多級視覺表示的主干。然后將人體結(jié)構(gòu)和目標(biāo)上下文等額外知識編碼為條件,通過仿射變換和注意機(jī)制動態(tài)影響CNN的特征提取。最后,融合調(diào)制的多模態(tài)特征來區(qū)分相互作用。本文提出的方法在兩個最常用的基準(zhǔn),HICO-DET和V-COCO上進(jìn)行了評估。實(shí)驗(yàn)結(jié)果表明,本文的方法優(yōu)于現(xiàn)有的方法。

具體實(shí)現(xiàn)

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖

圖1 MLCNet的概述

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖1檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖2表示圖像,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖3表示應(yīng)用一些現(xiàn)成的視覺感知模型來提取到的額外的空間語義知識,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖4表示一起傳入模型MCLNet。 其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖5是為檢測到的HOI實(shí)例檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖6,其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖7檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖8為檢測到的人與目標(biāo)的邊界框,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖9屬于HOI類別集。一個HOI類別檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖10包含一個動作檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖11和一個對象檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖12,它們分別屬于相應(yīng)的動作集和對象類別集。

1. 額外知識的提取

MLCNet綜合利用語義信息、全局空間分布以及身體部位與目標(biāo)之間的關(guān)系進(jìn)行HOI推理。這些顯式知識作為純視覺特征和復(fù)雜語義之間的橋梁,有助于提高深度網(wǎng)絡(luò)的推理能力和可解釋性。

對象檢測

對于一幅圖像,應(yīng)用最先進(jìn)的目標(biāo)檢測模型FPN來獲得人和物體的位置和類別。檢測到的人類和對象實(shí)例分別被表示為檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖13檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖14。人和對象實(shí)例作為HOI候選對象配對檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖15。對象類別是用一組在大規(guī)模語言數(shù)據(jù)集上預(yù)先訓(xùn)練好的高維詞向量檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖16表示的。

姿態(tài)估計

為了獲取人體的結(jié)構(gòu)信息,采用一種現(xiàn)成的多人姿態(tài)估計方法RMPE,該方法估計每個人體實(shí)例的檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖17個關(guān)節(jié)。每個身體關(guān)節(jié)表示為一個具有置信度值的坐標(biāo)。

人體解析

利用預(yù)先訓(xùn)練的人類解析方法WSHP生成一個與原始圖像寬度和高度相同的多通道概率圖檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖18,每個通道對應(yīng)的是特定類型的人體部位。與人體關(guān)節(jié)相比,該語義分割圖提供了更密集的像素級結(jié)構(gòu)信息,包括人體部位的形狀和邊緣。

2. 多層次的視覺特征

本文構(gòu)建了一個多分支CNN作為MLCNet的主干。該網(wǎng)絡(luò)結(jié)構(gòu)對全局上下文、交互階段、實(shí)體和身體部位的綜合視覺信息進(jìn)行編碼,并對應(yīng)分支進(jìn)行獨(dú)立優(yōu)化,能夠在訓(xùn)練階段有效地學(xué)習(xí)不同的外觀分布。

具體方法

首先生成整個圖的全局特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖19,其中包含一系列共享的殘差塊和特征轉(zhuǎn)換塊,如圖1所示。BaseBlock和ResBlocks是ResNet的標(biāo)準(zhǔn)模塊;FTBlock融合了人體結(jié)構(gòu)信息和全局視覺特征。在此基礎(chǔ)上,根據(jù)交互短語、人類、目標(biāo)和身體部位的區(qū)域,裁剪檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖20,從而提取多層次的視覺特征包括檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖21檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖22,并傳遞到相應(yīng)的分支中。ROI對齊后的特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖23檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖24的大小為檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖24,這里檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖25檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖26表示通道的寬度和數(shù)量。為了提取細(xì)粒度的人體結(jié)構(gòu)視覺特征,本文通過將每個被檢測的人體實(shí)例的檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖27個身體部位劃分為檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖28個組。對所有檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖29個身體部分應(yīng)用ROI對齊。檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖30由所有裁剪后的身體部分特征以通道方式連接而生成,其形狀為檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖31。為了突出顯示與某個對象相關(guān)的信息性主體部分,需要將主體部分的注意力應(yīng)用于檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖32。除了視覺特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖33檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖34,本文進(jìn)一步補(bǔ)充了一個整體的上下文特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖35來編碼全局場景,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖36是通過池化整個圖像的CNN特征(如檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖37)生成的。合并的功能被輸入到場景分支中,其結(jié)構(gòu)與前面提到的分支相同。有了全局上下文特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖38,層次的可視化表示可以更加全面。最后,對所有視覺特征應(yīng)用全局平均池化,生成特征向量作為分類器的輸入。

3. 多層次調(diào)節(jié)

本文采用了多級條件作用機(jī)制,進(jìn)一步提高了前述多分支CNN的推理能力。具體來說,該方法將全局圖像特征、交互階段特征和人體部位特征與人體結(jié)構(gòu)和對象上下文的空間語義信息動態(tài)交替。

全局作用

利用身體部位分割圖作為全局條件來增強(qiáng)整個圖像的全局視覺特征。將分割圖輸入條件網(wǎng)絡(luò),生成多級條件特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖39,同時對不同尺度下人體部位的相對位置和形狀進(jìn)行編碼。

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖40

圖1顯示了全局條件網(wǎng)絡(luò)的概述。它由四個連續(xù)的卷積塊組成,與CNN的主干塊數(shù)目相同。第一個條件塊與CNN主干的BaseBlock結(jié)構(gòu)相同,下面的條件塊包含三個使用1×1內(nèi)核的卷積層,其中存在兩個LeakyReLU激活層。

值得注意的是,條件特征始終與相應(yīng)的視覺特征進(jìn)行空間對齊。在CNN主干的每一個塊之后,通過一個特征變換塊來實(shí)現(xiàn)全局條件化,如圖1所示,它結(jié)合了相同尺度的視覺特征和條件特征。

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖41

如上圖所示,F(xiàn)TBlock的特征變換層檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖42采用仿射變換,將輸入的視覺特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖43和調(diào)制參數(shù)檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖44動態(tài)交替。參數(shù)由取人體狀態(tài)特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖45的映射函數(shù)檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖46生成:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖47檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖48

其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖49通過使用1×1內(nèi)核和LeakyReLU激活使用雙卷積層實(shí)現(xiàn),檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖50表示按元素乘法。

特征變換塊(FTBlock)被稱為檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖51:將視覺特征和狀態(tài)特征與殘差函數(shù):

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖52

融合。由連續(xù)殘差和變換塊生成的全局特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖53,用于提取上一節(jié)中提到的多級視覺特征。

局部作用

局部交互短語是圖像中緊密包圍目標(biāo)的一個信息相對豐富的區(qū)域。然而,由于人的對象實(shí)例和上下文的多樣性,交互階段的外觀多樣性是巨大的,單純的視覺特征是不足以捕捉的。因此,本文構(gòu)造了一個人-物配置圖來指導(dǎo)局部調(diào)節(jié)下的交互階段特征提取。

具體,首先將人的實(shí)例分成檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖54組,身體部分檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖55用一組具有適當(dāng)邊距的對應(yīng)體關(guān)節(jié)組周圍的邊界框表示。

由于局部條件作用是在全局特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖56中裁剪出來的局部視覺特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖57上進(jìn)行的,因此無法保留形狀、邊緣等細(xì)粒度的空間細(xì)節(jié)。本文生成一個box級人體-對象空間配置圖如下,作為局部條件,編碼人-物對檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖58的相對位置,所有人體部位擁有檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖59個通道。每個通道都是一個二維的二元矩陣,具有相同大小的相互作用短語。包圍框內(nèi)的數(shù)字設(shè)為1,否則設(shè)為0。

將配置圖輸入局域條件網(wǎng)絡(luò)生成局域條件特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖60。局域條件網(wǎng)絡(luò)由四個1×1內(nèi)核的卷積層組成,其中存在三個LeakyReLU激活層。局部條件作用采用局部特征變換模塊檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖61實(shí)現(xiàn),其結(jié)構(gòu)與檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖62相同:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖63

與全局條件作用相比,局部條件作用可為特定的HOI候選人提供更具體的空間語義引導(dǎo)。

身體部位的注意力機(jī)制

從不同身體部位提取的視覺特征需要給予不同的關(guān)注。通過將目標(biāo)對象類別的單詞向量v輸入到一個完全連接的網(wǎng)絡(luò)中,生成注意力權(quán)重檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖64:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖65

其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖66為LeakyReLU激活函數(shù),檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖67為項(xiàng)目參數(shù),檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖68為偏置項(xiàng),

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖69

由于在大規(guī)模語言數(shù)據(jù)集上預(yù)先訓(xùn)練的詞向量對對象的功能進(jìn)行了編碼,因此知識可以在功能相似的不同類別的對象之間傳遞。將得到的注意權(quán)重應(yīng)用于身體部位的視覺特征:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖70

其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖71,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖72是包圍框根據(jù)第i個身體部位從檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖73裁剪的特征。

將人體各部位加權(quán)和原始特征融合如下:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖74

其中檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖75為通道級聯(lián)。對象上下文注意可以有效地改善人體部位的視覺特征

4. 多通道特征融合

除了多級視覺特性外,本文還進(jìn)一步增加了一個相對位置特征檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖76和一個目標(biāo)上下文特性檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖77。以人-物配置圖作為輸入,檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖78由兩個卷積層最大池化后生成。檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖79常被HOID方法用來編碼交互階段中圍繞人和對象實(shí)例的邊界框的相對位置;檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖80可以捕獲不同對象之間的特征相似度。

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖81這些特征都被輸入到獨(dú)立的全連接分類器中,這些分類器的輸出被sigmoid函數(shù)歸一化,以估計所有對象無關(guān)的動作的概率。然后采用基于iCAN的后期融合策略,融合所有分支的置信度{δ}和HOI候選對象中被檢測到的人與目標(biāo)的置信度值(檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖82檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖83)如下:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖84檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖85

其中?δ為動作的融合置信向量,δ的上標(biāo)表示對應(yīng)的特征類型。檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖86則為HOI類別σ的置信度值。

值得注意的是,考慮到HOI的類別空間可能相當(dāng)大,要獲得足夠和平衡的訓(xùn)練數(shù)據(jù)是不現(xiàn)實(shí)的。我們將HOI類別分解為動作和對象,并獨(dú)立地識別它們。該方法可以處理大規(guī)模類別空間和長尾數(shù)據(jù)(類別數(shù)量嚴(yán)重不平衡)分布。此外,交互知識可以在不同對象之間傳遞,這使得零命中HOID成為可能。

5. 模型訓(xùn)練

為每一步向模型輸入一個Mini批檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖87,Y表示與對象無關(guān)的動作標(biāo)簽檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖88,Ω是動作類別集合,y∈{0,1}。

由于一個人的實(shí)例可以對一個目標(biāo)對象實(shí)例施加多種類型的動作,HOI識別被表述為一個多標(biāo)簽分類問題。在訓(xùn)練階段,使用二元交叉熵?fù)p失函數(shù)BCE計算所有七個分支的獨(dú)立損失值:

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖89檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖90

在這里,小批量損失是一個總和,而不是平均值。它有效地避免了罕見類別中的樣本被忽略的情況,并且可以避免模型偏于頻繁出現(xiàn)的類別。

實(shí)驗(yàn)結(jié)果

成分分析結(jié)果

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖91
base包括人體分支、對象分支、身體部位分支、短語分支和空間分支;base -frozen是凍結(jié)了base的CNN主干,并在MS-COCO數(shù)據(jù)集上用預(yù)先訓(xùn)練的權(quán)值初始化主干,構(gòu)建的一個比較基線;其他包括場景分支(SB), 上下文分支 (CB), 全局條件 (GC),局部條件 (LC) 身體部分注意力分支(BPA),Ours=Base+CB+SB+BPA+LC+GC;通過第1~2行,結(jié)果表明,通過獨(dú)立學(xué)習(xí)不同層次的視覺模式,基于CNN的HOI識別可以得到很大的提高;通過第3~4兩行,結(jié)果表明,場景分支和上下文分支的有效性;通過第5 ~ 7行,全mAP的逐漸提高分別為0.07%、0.24%和0.17%,可知完整的模型在本次實(shí)驗(yàn)中取得了最佳的性能。結(jié)果表明,額外的空間語義知識提高了CNN的推理能力。

性能對比

檢測技術(shù)再進(jìn)化:人物交互檢測,基于多層次條件網(wǎng)絡(luò)的方法插圖92

大部分結(jié)果都超過現(xiàn)有最好方法 PMFNet,這證實(shí)了利用額外知識作為條件可以有效地增強(qiáng)CNN對細(xì)粒度人機(jī)交互的推理能力;

本文方法map在rare和non-rare上的差異為1.73%,顯著低于RPNN的5.93%。這證實(shí)了所采用的知識轉(zhuǎn)移策略和損失函數(shù)能夠有效地抑制長尾訓(xùn)練數(shù)據(jù)和知識轉(zhuǎn)移的負(fù)面影響;

在不調(diào)整超參數(shù)的情況下,本方法的模型在V-COCO數(shù)據(jù)集上具有較好的性能,且訓(xùn)練時數(shù)較少,證明了該模型的魯棒性。

討論

為了對多余的空間語義知識進(jìn)行編碼,本文構(gòu)造了具有多個卷積層的條件網(wǎng)絡(luò),從而增加了參數(shù)的數(shù)量。為了學(xué)習(xí)不同視覺內(nèi)容的不同外觀分布,多分支結(jié)構(gòu)進(jìn)一步擴(kuò)大了網(wǎng)絡(luò)的規(guī)模,這需要大約6GB的GPU內(nèi)存進(jìn)行訓(xùn)練。此外,在一些涉及多個個體的復(fù)雜情況下,一些檢測到的HOI實(shí)例的信息量低于其他實(shí)例,這可能會給旨在描述圖像的主要視覺內(nèi)容的應(yīng)用程序帶來負(fù)面影響。然而,由于之前的工作沒有考慮到語義興趣的HOI標(biāo)注,現(xiàn)有的方法無法通過監(jiān)督學(xué)習(xí)從復(fù)雜場景中選擇信息最豐富的HOI實(shí)例。這一問題值得更多的關(guān)注,需要進(jìn)一步的數(shù)據(jù)收集和模型設(shè)計的探索。

結(jié)論

為了彌補(bǔ)圖像的低層視覺特征與人機(jī)交互的高層語義信息之間的差距,本文提出了一種多層次條件網(wǎng)絡(luò),利用額外的空間語義信息作為條件來動態(tài)影響CNN的行為。

該方法融合了顯性先驗(yàn)知識和隱性視覺特征,實(shí)現(xiàn)了復(fù)雜、細(xì)粒度的視覺內(nèi)容理解。應(yīng)用現(xiàn)成的人體解析模型和姿態(tài)估計模型,獲取圖像中人體實(shí)例的身體結(jié)構(gòu)信息。本文還利用目標(biāo)檢測模型來獲取圖像中實(shí)體的位置和類別。額外的知識通過條件網(wǎng)絡(luò)進(jìn)行編碼,用于指導(dǎo)視覺特征提取。

為了評估所提方法的有效性,我們在HICODET和V-COCO兩個公共基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法顯著優(yōu)于現(xiàn)有的多模型特征融合方法,驗(yàn)證了所提出的多級條件機(jī)制和多模型特征融合的有效性。

聯(lián)系我們

聯(lián)系我們

0769-81627526

在線咨詢: QQ交談

郵箱: info@kingpo.hk

工作時間:周一至周五,9:00-17:30,節(jié)假日休息
關(guān)注微信
微信掃一掃關(guān)注我們

微信掃一掃關(guān)注我們

手機(jī)訪問
手機(jī)掃一掃打開網(wǎng)站

手機(jī)掃一掃打開網(wǎng)站

返回頂部
隆林| 和顺县| 东安县| 武宣县| 屏山县| 长泰县| 大同县| 永兴县| 将乐县| 泉州市| 保亭| 彭泽县| 泾阳县| 密山市|