37篇Facebook今年被CVPR收錄的論文都說了啥?

      網(wǎng)友投稿 933 2022-05-30

      AI 科技評論按:CVPR 2019 已于 6 月 16 日至 20 日在美國加利福利亞州長灘市盛大舉辦,吸引了超過萬人參加,雷鋒網(wǎng) AI 科技評論的記者也前往現(xiàn)場為大家?guī)砹司实拇髸?bào)道。作為工業(yè)界的學(xué)術(shù)實(shí)力干將之一,F(xiàn)acebook AI 研究院在本次大會上的成果也備受矚目。而 Facebook AI 研究院也對自己今年的戰(zhàn)績進(jìn)行了統(tǒng)計(jì):共有 37 篇論文被收錄,其中包括 15 篇 Oral 論文。下面就讓我們一起來看看這些成果吧。

      Oral 論文一覽

      《2.5D 視覺聲音》

      2.5D Visual Sound

      雙聲道音頻為聽者提供了 3D 的聽覺感受,讓人對場景有豐富的感知體驗(yàn)。然而,雙聲道錄音幾乎是不可實(shí)現(xiàn)的,即使能實(shí)現(xiàn)也需要相當(dāng)水平的專業(yè)知識和設(shè)備。我們建議利用視頻將普通的單聲道音頻轉(zhuǎn)換成雙聲道音頻,其關(guān)鍵思想是,視覺幀揭示了重要的空間線索:盡管單聲道音頻在完成過程中明顯缺乏這些空間線索,但它們與空間線索緊密相連。我們的多模態(tài)方法可以從未經(jīng)標(biāo)注的視頻中還原空間線索與單聲道音頻的這一聯(lián)系。我們設(shè)計(jì)了一個(gè)深卷積神經(jīng)網(wǎng)絡(luò),通過注入有關(guān)目標(biāo)和場景配置的視覺信息,將單聲道(單通道)原聲解碼成對應(yīng)的雙聲道。我們將輸出結(jié)果稱之為 2.5D 視覺聲音——視覺流幫助平面的單通道音頻「提升」到空間化的聲音。除了生成聲音,我們的神經(jīng)網(wǎng)絡(luò)自監(jiān)督表征學(xué)習(xí)也顯示出對聲源分離的作用。

      相關(guān)視頻演示鏈接:

      http://vision.cs.utexas.edu/projects/2.5D_visual_sound/

      論文地址:

      https://research.fb.com/publications/2-5d-visual-sound/

      《多語句視頻描述的對抗性推理》

      Adversarial Inference for Multi-Sentence Video Description

      盡管圖像標(biāo)注工作取得了顯著進(jìn)展,但由于視頻數(shù)據(jù)的復(fù)雜性,視頻描述仍處于起步階段,而為長視頻生成多語句描述則更具挑戰(zhàn)性。其中主要的挑戰(zhàn)包括生成視頻描述的流暢性和連貫性,以及它們與視頻的相關(guān)性。近年來,為了改進(jìn)圖像標(biāo)注模型,研究者們探索了基于強(qiáng)化和對抗學(xué)習(xí)的方法,但這兩種方法都存在著許多問題,例如 RL 存在的可讀性差、冗余度高問題,以及GANs 存在的穩(wěn)定性問題。在本文中,我們建議在推理過程中應(yīng)用對抗性技術(shù),設(shè)計(jì)一種有助于更好地生成多語句視頻描述的鑒別器。此外,我們發(fā)現(xiàn)多鑒別器采用的「混合」設(shè)計(jì)(即每個(gè)鑒別器針對視頻描述的某一方面)能夠?qū)崿F(xiàn)更好的效果。具體而言,我們通過解耦鑒別器從三個(gè)標(biāo)準(zhǔn)方面進(jìn)行評估:(1)視頻的視覺相關(guān)性;(2)語言的多樣性和流暢性(3)語句之間的連貫性。我們的方法在通常使用的 ActivityNet Captions 數(shù)據(jù)集進(jìn)行自動(dòng)和人工評估的結(jié)果都顯示,可以得到更準(zhǔn)確、更多樣、更連貫的多語句視頻描述。

      論文地址:

      https://research.fb.com/publications/adversarial-inference-for-multi-sentence-video-description/

      《魯棒可視問答的循環(huán)一致性》

      Cycle-Consistency for Robust Visual Question Answering

      盡管多年來,可視化回答取得了顯著的進(jìn)展,但今天的 VQA 模型的魯棒性仍有許多不足之處。我們引入了一種新的評估協(xié)議和相關(guān)數(shù)據(jù)集(VQARephrasings),并證明了最先進(jìn)的 VQA 模型對問題中存在的語言變化是相當(dāng)脆弱的。VQA- rephrasings 包含三個(gè)人為提供的 rephrasings(改述),用于解決來自 VQA v2.0 驗(yàn)證數(shù)據(jù)集的 4 萬個(gè)圖像中的 4 萬個(gè)問題。為了提高 VQA 模型的魯棒性,我們提出了一個(gè)使用循環(huán)一致性的與模型無關(guān)的框架。具體來說,我們訓(xùn)練一個(gè)模型,不僅用來回答問題,而且還用來生成以特定答案為前提條件的問題,這樣的話,針對生成問題預(yù)測的答案與原始問題的真實(shí)答案相同。在不使用額外標(biāo)注的情況下評估 VQA-Rephrasings 數(shù)據(jù)集,我們的方法在問題的表述變化方面比最先進(jìn)的 VQA 模型具有更顯著的魯棒性。此外,在標(biāo)準(zhǔn) VQA 和在挑戰(zhàn) VQA v2.0 數(shù)據(jù)集的可視化問題生成任務(wù)上,我們的方法比其他當(dāng)前最先進(jìn)的方法的表現(xiàn)都要更好。

      論文地址:

      https://research.fb.com/publications/cycle-consistency-for-robust-visual-question-answering/

      《DeepSDF:學(xué)習(xí)用于形狀表征的連續(xù)符號距離函數(shù)》

      DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

      計(jì)算機(jī)圖形學(xué)、3D 計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域的研究者已經(jīng)提出了多種方法來表示用于 3D 幾何的渲染和重建。這些方法在保真度、有效性和壓縮能力方面進(jìn)行權(quán)衡。本論文引入了 DeepSDF,即一個(gè)用于形狀類別表征的學(xué)到的連續(xù)符號距離函數(shù)(SDF),它能夠基于局部和帶噪聲的 3D 輸入數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量形狀表征、插值和補(bǔ)充。比如 DeepSDF 的分類作用,就是通過連續(xù)體積場來表示形狀的表面:場中點(diǎn)的大小表示到表面邊界的距離,同時(shí)標(biāo)記(-)和(+)分別表示該區(qū)域是在形狀區(qū)域內(nèi)還是在形狀區(qū)域外,因此我們的表征隱式地將形狀邊界編碼為學(xué)習(xí)到的函數(shù)的零水平集(zero-level-set),同時(shí)顯式地將空間分類表示為形狀內(nèi)部/外部區(qū)域。雖然經(jīng)典的 SDF 能夠以解析或離散體素的形式表示單個(gè)形狀的表面,但 DeepSDF 可以表示形狀的完整類別。此外,該方法在學(xué)習(xí) 3D 形狀表征和補(bǔ)充方面展示出了最先進(jìn)的性能,和之前的研究相比,模型尺寸減小了一個(gè)數(shù)量級。

      論文地址:

      https://arxiv.org/pdf/1901.05103.pdf

      《使用網(wǎng)絡(luò)規(guī)模近鄰搜索的對抗性圖像的防御》

      Defense Against Adversarial Images Using Web-Scale Nearest-Neighbor Search

      大量最近的研究表明,卷積網(wǎng)絡(luò)對敵方圖像不具有魯棒性:通過擾動(dòng)數(shù)據(jù)分布中的樣本而產(chǎn)生的圖像,以最大限度地減少擾動(dòng)示例的損失。在這篇論文中,我們假設(shè)對抗性干擾將圖像從圖像流形中移開,因?yàn)闆]有物理過程可以產(chǎn)生對抗性圖像。這一假設(shè)表明,一個(gè)能夠成功防御對抗性圖像的機(jī)制應(yīng)讓圖像設(shè)計(jì)回歸到圖像流形上。我們研究了這種防御機(jī)制,通過對包含數(shù)百億圖像的網(wǎng)絡(luò)級圖像數(shù)據(jù)庫進(jìn)行近鄰搜索來模擬未知圖像流形設(shè)計(jì)。對 ImageNet 防御策略的經(jīng)驗(yàn)評估表明在攻擊環(huán)境中該策略非常有效,即敵對方無法訪問圖像數(shù)據(jù)庫。我們還提出了兩種新的攻擊方法來破壞近鄰防御,并給出了近鄰防御失效的條件。我們進(jìn)行了一系列的消融實(shí)驗(yàn),這表明在防御系統(tǒng)的魯棒性和精確性之間存在著權(quán)衡,大型圖像數(shù)據(jù)庫(包含數(shù)億圖像)對于獲得良好的性能至關(guān)重要,仔細(xì)構(gòu)建圖像數(shù)據(jù)庫對于抵御為規(guī)避防御而定制的攻擊非常重要。

      論文地址:

      https://arxiv.org/pdf/1903.01612.pdf

      《具有點(diǎn)云感知的逼真環(huán)境中的具身問答》

      Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

      為了幫助彌合互聯(lián)網(wǎng)視覺風(fēng)格問題與具身感知的視覺目標(biāo)之間的差距,我們以一個(gè)大規(guī)模的導(dǎo)航任務(wù)為例——在逼真環(huán)境(MatterPort3D)中具身問答[1]。我們深入研究使用 3D 點(diǎn)云、RGB 圖像或其組合的導(dǎo)航策略。我們對這些模型的分析揭示了幾個(gè)關(guān)鍵的發(fā)現(xiàn)。我們發(fā)現(xiàn),兩個(gè)看似簡單的導(dǎo)航基線(僅向前導(dǎo)航和隨機(jī)導(dǎo)航)都是強(qiáng)大的導(dǎo)航者,并且由于具身問答所采用的評估設(shè)置的特定選擇,它們也很難被超越。我們發(fā)現(xiàn)了一種新的損失加權(quán)方法,我們稱之為拐點(diǎn)加權(quán)法,在用行為克隆訓(xùn)練循環(huán)導(dǎo)航模型時(shí)非常重要,并且能夠用這種技術(shù)完成基線。我們發(fā)現(xiàn)點(diǎn)云為學(xué)習(xí)障礙規(guī)避提供了比 RGB 圖像更豐富的信號,這有助于推動(dòng)研究者使用(并繼續(xù)研究)3D 深度學(xué)習(xí)模型進(jìn)行實(shí)體導(dǎo)航。

      論文地址:

      https://research.fb.com/publications/embodied-question-answering-in-photorealistic-environments-with-point-cloud-perception/

      《基于場景補(bǔ)全的 RGB-D 掃描的極端相對姿態(tài)估計(jì)》

      Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion

      在相同的底層環(huán)境下,評估兩次 RGB-D 掃描之間的相對剛性姿態(tài)是計(jì)算機(jī)視覺、機(jī)器人學(xué)和計(jì)算機(jī)圖形學(xué)中的一個(gè)基本問題。大多數(shù)現(xiàn)有的方法只允許有限的相對姿態(tài)變化,因?yàn)樗鼈冊谳斎霋呙柚g有相當(dāng)大的重疊。我們引入了一種新的方法,在輸入掃描之間很少甚至沒有重疊的情況下,將范圍擴(kuò)展到極端相對姿態(tài)。關(guān)鍵思想是推斷出關(guān)于底層環(huán)境更完整的場景信息,并與完成的掃描相匹配。特別地,我們的方法不是只對每個(gè)單獨(dú)的掃描執(zhí)行場景補(bǔ)全,而是在相對姿態(tài)估計(jì)和場景補(bǔ)全之間進(jìn)行切換。這使得我們可以在后期迭代中利用來自兩個(gè)輸入掃描的信息來執(zhí)行場景補(bǔ)全,從而為場景補(bǔ)全和相對姿態(tài)估計(jì)帶來更好的結(jié)果。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相對于最先進(jìn)的相對姿態(tài)估計(jì)方法,我們的方法有較大的改進(jìn)。特別是,我們的方法在相對姿態(tài)估計(jì)甚至在非重疊掃描之間實(shí)現(xiàn)了令人興奮的結(jié)果。

      論文地址:

      https://arxiv.org/pdf/1901.00063.pdf

      《FBNET:基于可微神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的硬件感知的有效卷積網(wǎng)絡(luò)設(shè)計(jì)》

      FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search

      給移動(dòng)設(shè)備設(shè)計(jì)又準(zhǔn)又快的卷積網(wǎng)絡(luò)是非常具有挑戰(zhàn)的,因?yàn)樵O(shè)計(jì)空間太大了。因此,之前的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)方法計(jì)算量太大。卷積架構(gòu)優(yōu)化依賴的因素有分辨率和目標(biāo)設(shè)備等。然而,用現(xiàn)有的方法一個(gè)一個(gè)去重新設(shè)計(jì)代價(jià)太高。并且,之前的方法主要集中在減少 FLOPs,但是 FLOP 計(jì)數(shù)并不總是能反映實(shí)際延時(shí)。基于這些情況,我們提出了一種可微神經(jīng)架構(gòu)搜索(DNAS)框架,使用基于梯度的方法去優(yōu)化卷積網(wǎng)絡(luò)結(jié)構(gòu),避免像之前的方法那樣去窮舉和單獨(dú)訓(xùn)練結(jié)構(gòu)。FBNets(Facebook-伯克利-網(wǎng)),是 DNAS 的一種分支模型,超越了人工設(shè)計(jì)的和自動(dòng)生成的當(dāng)前最先進(jìn)模型。FBNet-B 在 ImageNet 數(shù)據(jù)集上達(dá)到了 74.1% 的 top-1 準(zhǔn)確率,在三星 S8 手機(jī)上實(shí)現(xiàn)了 295M 的 FLOPs 以及 23.1ms 的延時(shí),也就說與 MobileNetV2-1.3 相比,F(xiàn)BNet-B 在準(zhǔn)確率差不多的情況下將 FLOPs 減少了 2.4 倍,將響應(yīng)速度提高了 1.5 倍。盡管 FBNet-B 比 MnasNet[20] 具有更高的準(zhǔn)確性和更低的延遲,但我們還評估出 FBNet-B 的搜索成本比 MnasNet 低 420 倍,僅為 216 GPUhours。針對不同分辨率和通道大小的搜索,F(xiàn)BNets 比 MobileNetV2 的準(zhǔn)確率高了 1.5% 至 6.4%。最小的 FBNet 網(wǎng)絡(luò)在一臺三星 S8 上達(dá)到了 50.2% 的準(zhǔn)確率和 2.9ms 的延時(shí)(每秒 345 幀)。通過使用在三星上優(yōu)化的 FBNet,iPhone-X-優(yōu)化模型在 iPhone X 上搜索速度提高了 1.4 倍。

      FBNet 模型源代碼:

      https://github.com/facebookresearch/mobile-vision

      論文地址:

      https://research.fb.com/publications/fbnet-hardware-aware-efficient-convnet-design-via-differentiable-neural-architecture-search

      《實(shí)現(xiàn)貼切的視頻描述》

      Grounded Video Description

      視頻描述是視覺和語言理解中最具挑戰(zhàn)性的問題之一,因?yàn)橐曨l和語言都具有很大的可變性。因此,模型通常會簡化識別的難度,生成基于先驗(yàn)但不一定基于視頻的可信語句。本次研究中,我們通過使用視頻的某個(gè)幀中對應(yīng)的邊框來標(biāo)注語句中的每個(gè)名詞短語,從而明確讓生成的語句與視頻中的顯示畫面掛鉤。我們的數(shù)據(jù)集 ActivityNet- Entities 增強(qiáng)了這一具有挑戰(zhàn)性的 ActivityNet Captions 數(shù)據(jù)集,其包含 15.8 萬個(gè)邊框標(biāo)注,其中每個(gè)標(biāo)注都以名詞短語為基礎(chǔ)。這樣的話,就能使用這些數(shù)據(jù)訓(xùn)練視頻描述模型,并且非常重要的是,這些數(shù)據(jù)可以評估該模型對所描述的視頻的合理性或「真實(shí)性」。為了生成合理的說明,我們提出了一種能夠利用這些邊框標(biāo)注的新的視頻描述模型。我們證明了該模型在前述數(shù)據(jù)集上的有效性,同時(shí)也顯示出該模型能用于基于 Flickr30k Entities 數(shù)據(jù)集的視頻描述。本次研究在視頻描述、視頻片段描述和圖像描述方面實(shí)現(xiàn)了最先進(jìn)的性能,并展示了我們的模型生成的語句,與視頻中顯示的畫面匹配得更貼切。

      代碼鏈接:

      https://github.com/facebookresearch/grounded-videodescription

      數(shù)據(jù)集鏈接:

      https://github.com/facebookresearch/activityNet-Entities

      論文地址:

      https://research.fb.com/publications/grounded-video-description/

      《接縫材料和照明估計(jì)的反向路徑跟蹤》

      Inverse Path Tracing for Joint Material and Lighting Estimation

      現(xiàn)代計(jì)算機(jī)視覺算法給三維幾何重建帶來了顯著的進(jìn)步。然而,照明和材料重建的研究仍然較少,目前材料和照明模型的方法假設(shè)非常簡單。本文介紹了一種利用可逆的光傳輸模擬來聯(lián)合估計(jì)室內(nèi)場景中物體和光源材料性質(zhì)的新方法——反向路徑跟蹤。我們假設(shè)一個(gè)粗略的幾何掃描,以及相應(yīng)的圖像和相機(jī)姿態(tài)。本次工作的關(guān)鍵貢獻(xiàn)是,讓模型能夠精確并同步檢索光源和基于物理的材料屬性(如漫反射、鏡面反射、粗糙度等),以便在新的條件下編輯和重新渲染場景。為此,我們引入了一種新的優(yōu)化方法,使用可微蒙特卡羅渲染器來計(jì)算關(guān)于未知照明和材料屬性估計(jì)的導(dǎo)數(shù)。該方法使用定制的隨機(jī)梯度下降對物理正確的光傳輸和材料模型進(jìn)行了聯(lián)合優(yōu)化。

      論文地址:

      https://research.fb.com/publications/inverse-path-tracing-for-joint-material-and-lighting-estimation/

      《用于詳細(xì)視頻理解的長期特征庫》

      Long-Term Feature Banks for Detailed Video Understanding

      為了理解世界,我們?nèi)祟愋枰粩嗟貙F(xiàn)在與過去聯(lián)系起來,并將事件置于語境中。在本文中,我們使現(xiàn)有的視頻模型也能做到這一點(diǎn)。我們提出了長期特征庫(Long-Term Feature Bank)的方法,即在整個(gè)視頻范圍內(nèi)提取支持性的信息,用以增強(qiáng)最先進(jìn)的視頻模型——這些模型此前只能查看 2-5 秒的短片段。我們的實(shí)驗(yàn)表明,使用長期特征庫擴(kuò)充 3D 卷積網(wǎng)絡(luò)可以在三個(gè)具有挑戰(zhàn)性的視頻數(shù)據(jù)集上產(chǎn)生最先進(jìn)的結(jié)果:AVA,EPIC-Kitchens 和 Charades。目前,相關(guān)代碼可在網(wǎng)上獲取。

      論文地址:

      https://arxiv.org/pdf/1812.05038.pdf

      《全景 FPN 網(wǎng)絡(luò)》

      Panoptic Feature Pyramid Networks

      最近引入的全景分割任務(wù)使該領(lǐng)域的研究者對統(tǒng)一實(shí)例分割任務(wù)(對象類)和語義分段任務(wù)(材料類)產(chǎn)生了興趣。然而,當(dāng)前用于該聯(lián)合任務(wù)的最先進(jìn)方法使用單獨(dú)的和不相似的網(wǎng)絡(luò),來進(jìn)行實(shí)例分割和語義分割,而無法讓兩個(gè)任務(wù)之間共享計(jì)算。在這項(xiàng)工作中,我們的目標(biāo)是在架構(gòu)層面統(tǒng)一這些方法,為這兩個(gè)任務(wù)設(shè)計(jì)單一網(wǎng)絡(luò)。我們的方法是使用共享的特征金字塔網(wǎng)絡(luò)(FPN)主框架來支持 Mask R-CNN(一種熱門的實(shí)例分割方法)。令人驚訝的是,該簡單基線不僅在實(shí)例分割方面仍然有效,而且還產(chǎn)生了一種輕量級、表現(xiàn)最佳的語義分割方法。在本次工作中,我們對具有 FPN 的 Mask R-CNN 的最小擴(kuò)展版本進(jìn)行了詳細(xì)研究,我們將其稱為 Panopific FPN,并證明對于這兩個(gè)任務(wù)而言,它是穩(wěn)健且準(zhǔn)確的基線。鑒于其有效性和概念簡單性,我們希望我們的方法可以作為一個(gè)強(qiáng)大的基線,并有助于未來的全景分割研究。

      論文地址:

      https://ai.facebook.com/blog/improving-scene-understanding-through-panoptic-segmentation/

      《用于單目性能跟蹤的高保真人臉模型的自監(jiān)督適應(yīng)》

      Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking

      數(shù)據(jù)捕獲和人臉建模技術(shù)的改進(jìn)使我們能夠創(chuàng)建高保真的真實(shí)人臉模型。但是,驅(qū)動(dòng)這些真實(shí)的人臉模型需要特殊的輸入數(shù)據(jù),例如 3D 網(wǎng)格和未展開的紋理。此外,這些人臉模型需要在受控實(shí)驗(yàn)室環(huán)境下獲得干凈的輸入數(shù)據(jù),這與野外采集的數(shù)據(jù)顯著不同。所有這些限制使得在日用相機(jī)跟蹤中使用高保真模型很困難(所有這些限制使得日用相機(jī)在使用高保真模型進(jìn)行追蹤變得具有挑戰(zhàn)性)。在本文中,我們提出了一種自監(jiān)督的域適應(yīng)方法,能夠讓日用相機(jī)拍攝到的高逼真人臉模型變成動(dòng)畫格式。我們的這一方法首先通過訓(xùn)練一個(gè)可以直接從單個(gè)二維圖像驅(qū)動(dòng)人臉模型的新網(wǎng)絡(luò)來規(guī)避對特殊輸入數(shù)據(jù)的需求;然后,在假設(shè)人臉在連續(xù)幀上的外觀是一致的前提下,基于「連續(xù)幀紋理一致性」進(jìn)行自監(jiān)督域適應(yīng),我們克服了實(shí)驗(yàn)室與非控制環(huán)境之間的領(lǐng)域不匹配問題,避免了對照明或背景等新環(huán)境建模的必要性,例如調(diào)整照明或背景。實(shí)驗(yàn)表明,在不需要任何來自新領(lǐng)域的標(biāo)記數(shù)據(jù)的情況下,我們能夠讓手機(jī)攝像頭中的高保真人臉模型執(zhí)行復(fù)雜的面部運(yùn)動(dòng)。

      論文地址:

      http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoon_Self-Supervised_Adaptation_of_High-Fidelity_Face_Models_for_Monocular_Performance_Tracking_CVPR_2019_paper.pdf

      《微密集 DensePose:從稀少的標(biāo)注和運(yùn)動(dòng)線索中進(jìn)行精細(xì)學(xué)習(xí)》

      Slim DensePose: Thrifty Learning from Sparse Annotations and Motion Cues

      DensePose 通過將圖像像素密集地映射到人體表面坐標(biāo),取代了傳統(tǒng)的地標(biāo)探測器。然而,這種強(qiáng)大的功能帶來了極大的標(biāo)注成本,因?yàn)楣芾砟P托枰獮槊總€(gè)人體姿態(tài)實(shí)例手工標(biāo)注數(shù)百個(gè)點(diǎn)。因此,在這項(xiàng)工作中,我們尋找方法來顯著減少 DensePose 標(biāo)注,從而提出更有效的數(shù)據(jù)收集策略。特別地,我們證明了如果在視頻幀中收集標(biāo)注,通過使用動(dòng)作線索可以使它們的效果成倍增加。為了探索這個(gè)想法,我們引入了 DensePose-Track,這是一組視頻數(shù)據(jù)集,其中所選的幀是以傳統(tǒng)的 DensePose 方式進(jìn)行標(biāo)注。然后,基于 DensePose 映射的幾何特性,利用視頻動(dòng)態(tài)及時(shí)傳送真實(shí)有效的標(biāo)注,并從 Siamese 方差約束中學(xué)習(xí)。在對各種數(shù)據(jù)注釋和學(xué)習(xí)策略進(jìn)行了詳盡的經(jīng)驗(yàn)評估之后,我們證明這樣做可以在強(qiáng)基線上顯著提高姿態(tài)估計(jì)結(jié)果。然而,盡管最近的一些研究工作提出了這樣的建議,但我們發(fā)現(xiàn),僅通過對孤立幀應(yīng)用幾何變換來合成運(yùn)動(dòng)模式的效果要差得多,而從視頻中提取運(yùn)動(dòng)線索的效果更好。

      論文地址:

      https://research.fb.com/publications/slim-densepose-thrifty-learning-from-sparse-annotations-and-motion-cues/

      《精確到每一縷頭發(fā)的多視圖頭發(fā)捕捉》

      Strand-Accurate Multi-View Hair Capture

      頭發(fā)由于其微小的尺度結(jié)構(gòu)和大量的重合遮擋,是最具挑戰(zhàn)的重建對象之一。在本文中,我們提出了第一種方法,以精確到每一縷頭發(fā)的方法來捕獲高保真度的頭發(fā)幾何結(jié)構(gòu)。我們的方法分三個(gè)階段來實(shí)現(xiàn)。第一階段,我們提出了一種新的采用立體傾斜支撐線的多視圖方法來解決不同視角之間的頭發(fā)對應(yīng)問題。詳細(xì)來說,我們提出了一個(gè)新的成本函數(shù),它由顏色一致性項(xiàng)和幾何項(xiàng)組成,將每個(gè)頭發(fā)像素重建為一個(gè)三維線,其通過合并所有深度圖,可以得到一個(gè)點(diǎn)云以及每個(gè)點(diǎn)的局部線方向。第二階段,我們提出了一種新的基于均值漂移的發(fā)絲重構(gòu)方法,將噪聲點(diǎn)數(shù)據(jù)轉(zhuǎn)換為一組發(fā)絲。最后,我們使用多視圖幾何約束來精細(xì)到?jīng)]一縷發(fā)絲,從而拉長短頭發(fā)并恢復(fù)缺失的頭發(fā),從而顯著地提高重建完整性。我們在合成數(shù)據(jù)和實(shí)際采集數(shù)據(jù)上對這一方法進(jìn)行了評估,結(jié)果表明我們的方法可以在亞毫米精度下重建每一縷發(fā)絲。

      論文地址:

      http://openaccess.thecvf.com/content_CVPR_2019/papers/Nam_Strand-Accurate_Multi-View_Hair_Capture_CVPR_2019_paper.pdf

      Poster 論文一覽

      3D Human Pose Estimation in Video with Temporal Convolutions and Semisupervised Training

      代碼鏈接:

      https://github.com/facebookresearch/VideoPose3D

      論文地址:

      https://research.fb.com/publications/3d-human-pose-estimation-in-video-with-temporal-convolutions-and-semi-supervised-training/

      Activity Driven Weakly Supervised Object Detection

      代碼鏈接:

      https://github.com/facebookresearch/astmt

      Attentive Single-Tasking of Multiple Tasks

      代碼及模型鏈接:

      https://github.com/facebookresearch/astmt

      ChamNet: Towards Efficient Network Design Through Platform-Aware Model Adaptation

      論文地址:

      https://research.fb.com/publications/chamnet-towards-efficient-network-design-through-platform-aware-model-adaptation/

      DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition

      論文地址:

      https://research.fb.com/publications/dmc-net-generating-discriminative-motion-cues-for-fast-compressed-video-action-recognition/

      Engaging Image Captioning via Personality

      論文地址:

      https://research.fb.com/publications/engaging-image-captioning-via-personality/

      Feature Denoising for Improving Adversarial Robustness

      代碼鏈接:

      https://github.com/facebookresearch/ImageNet-Adversarial-Training

      論文地址:

      https://research.fb.com/publications/feature-denoising-for-improving-adversarial-robustness

      Graph-Based Global Reasoning Networks

      論文地址:

      https://research.fb.com/publications/graph-based-global-reasoning-networks/

      Improved Road Connectivity by Joint Learning of Orientation and Segmentation

      論文地址:

      http://openaccess.thecvf.com/content_CVPR_2019/papers/Batra_Improved_Road_Connectivity_by_Joint_Learning_of_Orientation_and_Segmentation_CVPR_2019_paper.pdf

      Inverse Cooking: Recipe Generation from Food Images

      代碼及模型:

      https://github.com/facebookresearch/inversecooking.

      論文地址:

      https://research.fb.com/publications/inverse-cooking-recipe-generation-from-food-images

      Kernel Transformer Networks for Compact Spherical Convolution

      論文地址:

      https://research.fb.com/publications/kernel-transformer-networks-for-compact-spherical-convolution/

      37篇!Facebook今年被CVPR收錄的論文都說了啥?

      Large-Scale Weakly Supervised Pretraining for Video Action Recognition

      論文地址:

      https://research.fb.com/publications/large-scale-weakly-supervised-pre-training-for-video-action-recognition/

      LBS Autoencoder: Self-Supervised Fitting of Articulated Meshes to Point Clouds

      論文地址:

      https://arxiv.org/abs/1904.10037

      Less Is More: Learning Highlight Detection fromVideo Duration

      論文地址:

      https://arxiv.org/abs/1903.00859

      LVIS: A Data Set for Large Vocabulary Instance Segmentation

      LVIS 鏈接:

      http://www.lvisdata set.org

      Multi-Target Embodied Question Answering

      論文地址:

      https://arxiv.org/pdf/1904.04686.pdf

      Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors

      論文地址:

      https://arxiv.org/pdf/1812.08985v1.pdf

      Panoptic Segmentation

      論文地址:

      https://research.fb.com/publications/panoptic-segmentation/

      Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition

      論文地址:

      https://research.fb.com/publications/reducing-uncertainty-in-undersampled-mri-reconstruction-with-active-acquisition/

      StereoDRNet: Dilated Residual StereoNet

      論文地址:

      http://openaccess.thecvf.com/content_CVPR_2019/papers/Chabra_StereoDRNet_Dilated_Residual_StereoNet_CVPR_2019_paper.pdf

      Thinking Outside the Pool: Active Training Image Creation for Relative Attributes

      論文地址:

      http://openaccess.thecvf.com/content_CVPR_2019/papers/Yu_Thinking_Outside_the_Pool_Active_Training_Image_Creation_for_Relative_CVPR_2019_paper.pdf

      Towards VQA Models That Can Read

      代碼鏈接:

      https://github.com/facebookresearch/pythia

      論文地址:

      https://research.fb.com/publications/towards-vqa-models-that-can-read/

      via?https://ai.facebook.com/blog/facebook-research-at-cvpr-2019/

      轉(zhuǎn)自:AI科技評論

      EI 人工智能 AI

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:煤炭行業(yè)轉(zhuǎn)型正當(dāng)時(shí),華為云助力智慧礦山新發(fā)展
      下一篇:區(qū)塊鏈技術(shù)到底有沒有前途?能用來干些什么?
      相關(guān)文章
      亚洲白色白色永久观看| 久久水蜜桃亚洲AV无码精品| 豆国产96在线|亚洲| 亚洲色成人WWW永久在线观看 | 亚洲黄色一级毛片| 亚洲乱码中文字幕综合| 亚洲午夜久久久影院伊人| 国产精品亚洲高清一区二区| 亚洲天堂免费在线视频| 亚洲国产天堂久久久久久| 精品国产亚洲第一区二区三区| 亚洲a∨无码精品色午夜| 亚洲AV无码成人精品区日韩| 色婷婷六月亚洲综合香蕉| 日韩国产欧美亚洲v片| 国产综合成人亚洲区| 亚洲A丁香五香天堂网| 国产成人高清亚洲| 国产亚洲老熟女视频| 亚洲成av人在线视| 911精品国产亚洲日本美国韩国 | 免费亚洲视频在线观看| 亚洲精品视频在线看| 亚洲人成在线播放网站| 久久久综合亚洲色一区二区三区| 亚洲av日韩av无码黑人| 亚洲综合激情九月婷婷 | 精品亚洲视频在线观看| 亚洲成a人片在线播放| 亚洲片国产一区一级在线观看| 亚洲AV伊人久久青青草原| 亚洲国产日韩成人综合天堂| 国产专区一va亚洲v天堂| 亚洲精品无码专区久久久| 久久亚洲国产精品五月天| 亚洲美女一区二区三区| 在线aⅴ亚洲中文字幕| 亚洲aⅴ无码专区在线观看| 亚洲精品网站在线观看不卡无广告 | 亚洲AV无码专区在线观看成人| 亚洲 小说区 图片区 都市|