ICCV 2019接收論文提前看,曠視11篇入選文章放出 | 資源
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
ICCV 2019最終論文接收結果終于全部公布,這一次,一共有1077篇論文被接收,接受率為25%。
ICCV的全稱是 IEEE International Conference on Computer Vision,即國際計算機視覺大會,由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)并稱計算機視覺方向的三大頂會。
ICCV每兩年才召開一次,以論文錄用率低著稱,是三大會議中公認級別最高的。
這一屆ICCV將于10月27日至11月2日在韓國首爾COEX會議中心舉行。
此番,AI獨角獸曠視有11篇論文入選,從文本到繪畫,從數(shù)據(jù)集到新模型,內(nèi)容可謂相當豐富??旄孔游灰黄饋韺W習一下吧~
論文介紹
1、論文名稱:Objects365: A Large-scale, High-quality Dataset for Object Detection
論文鏈接:暫無
開源鏈接:https://www.objects365.org/overview.html
關鍵詞:物體檢測、數(shù)據(jù)集
摘要:
在本文中,我們介紹了一個新的大型物體檢測數(shù)據(jù)集Objects365,它有超過60萬張圖片,365個類別,超過1000萬個高質(zhì)量的邊界框。由精心設計的三步注釋管道手動標記,它是迄今為止最大的物體檢測數(shù)據(jù)集(帶有完整注釋),并為社區(qū)建立了更具挑戰(zhàn)性的基準。
Objects365可以作為更好的特征學習數(shù)據(jù)集,用于目標檢測和分割等定位敏感任務。
Objects365預訓練模型明顯優(yōu)于ImageNet預訓練模型:在COCO上訓練90K / 540K次迭代時AP提高了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時,當達到相同的精度時,fine-tune時間可以大大減少(最多10倍差距)。在CityPersons,VOC Segmentation和ADE中也驗證了Object365更好的泛化能力。我們將發(fā)布數(shù)據(jù)集以及所有預訓練的模型。
Objects365是曠視研究院發(fā)布的通用物體檢測數(shù)據(jù)集,研究團隊由曠視科技首席科學家孫劍帶領。
在此之前,針對Objects365以及之前發(fā)布的大規(guī)模擁擠場景數(shù)據(jù)集CrowdHuman,曠視科技與北京智源人工智能研究院還啟動了Detection In the Wild 2019(DIW 2019)挑戰(zhàn)賽,登上2019 CVPR Workshop。
2、論文名稱:ThunderNet: Towards Real-time Generic Object Detection
論文鏈接:https://arxiv.org/abs/1903.11752
關鍵詞:通用物體檢測
摘要:
在計算機視覺領域中,如何在移動設備上實現(xiàn)實時目標檢測是一個非常重要而又十分有挑戰(zhàn)性的任務。然而,目前基于CNN的目標檢測網(wǎng)絡往往都需要巨大的計算開銷,導致這些網(wǎng)絡模型無法在移動設備上進行部署應用。
在這篇文章中,我們探索了兩階段目標檢測模型在移動端實時目標檢測任務上的有效性,并提出了一種輕量級的兩階段目標檢測模型ThunderNet。在骨干網(wǎng)部分,我們分析了之前的輕量級骨干網(wǎng)絡的缺點,并提出了一種針對目標檢測任務設計的輕量級骨干網(wǎng)絡。在檢測網(wǎng)部分,我們采用了極為簡潔的RPN和檢測頭的設計。為了產(chǎn)生更有判別性的特征表示,我們設計了兩個網(wǎng)絡模塊:上下文增強模塊(CEM)和空間注意力模塊(SAM)。最后,我們探討了輕量級目標檢測模型的輸入分辨率、骨干網(wǎng)和檢測頭之間計算開銷的平衡關系。
與之前的輕量級一階段目標檢測模型相比,ThunderNet僅僅需要40%的計算開銷就可以在Pascal VOC和COCO數(shù)據(jù)集上實現(xiàn)更好的檢測精度。ThunderNet還在移動設備上實現(xiàn)了24.1fps的實時檢測。據(jù)知,這是在ARM平臺上報告的第一個實時檢測模型。
論文的共同一作是CS在讀博士Zheng Qin,他曾在曠視實習。
另一位是曠視研究院研究員黎澤明。
3、論文名稱:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
論文鏈接:暫無
關鍵詞:文本檢測
摘要:
場景文本檢測是場景文本閱讀系統(tǒng)的重要一步,隨著卷積神經(jīng)網(wǎng)絡的快速發(fā)展,場景文字檢測也取得了巨大的進步。盡管如此,仍存在兩個主要挑戰(zhàn),它們阻礙文字檢測部署到現(xiàn)實世界的應用中。
第一個問題是速度和準確性之間的平衡。第二個是對任意形狀的文本實例進行建模。最近,已經(jīng)提出了一些方法來處理任意形狀的文本檢測,但是它們很少去考慮算法的運行時間和效率,這可能在實際應用環(huán)境中受到限制。
在本文中,我們提出了一種高效且準確的任意形狀文本檢測器,稱為PSENet V2,它配備了低計算成本的分割模塊和可學習的后處理方法。更具體地,分割模塊由特征金字塔增強模塊(FPEM)和特征融合模塊(FFM)組成。FPEM是一個可級聯(lián)的U形模塊,可以引入多級、信息來指導更好的分割。FFM可以將不同深度的FPEM給出的特征匯合到最終的分割特征中。可學習的后處理由像素聚合模塊(PA)實現(xiàn),其可以通過預測的相似性向量精確地聚合文本像素。
幾個標準基準測試的實驗驗證了所提出的PSENet V2的優(yōu)越性。值得注意的是,我們的方法可以在CTW1500上以84.2 FPS實現(xiàn)79.9%的F-measure。據(jù)我們所知,PSENet V2是第一種能夠?qū)崟r檢測任意形狀文本實例的方法。
4、論文名稱:Semi-supervised Skin Detection by Network with Mutual Guidance
論文鏈接:暫無
關鍵詞:半監(jiān)督學習、皮膚分割
摘要:
我們提出一種新的數(shù)據(jù)驅(qū)動的皮膚分割方法,可以從單張人像圖中魯棒地算出皮膚區(qū)域。
不像先前的方法,我們利用人體區(qū)域作為弱語義引導,考慮到大量人工標注的皮膚數(shù)據(jù)非常難以獲得。具體說來,我們提出了一種雙任務的網(wǎng)絡通過半監(jiān)督的學習策略來聯(lián)合地檢測皮膚和身體。該網(wǎng)絡包含了一個共享的編碼器、兩個獨立的解碼器分別檢測皮膚和身體。對于任意一個解碼器,其輸出也扮演著另外一個解碼器引導的角色。這樣以來,兩個解碼器實際上是相互引導。
大量實驗證明了相互引導策略的有效性,并且結果也顯示該方法在皮膚分割的任務上比現(xiàn)有方法更好。
5、論文名稱:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
論文鏈接:暫無
關鍵詞:半監(jiān)督學習、視頻檢測
摘要:
基于深度學習的視頻重點區(qū)域檢測已經(jīng)超過了大量無監(jiān)督的方法。但該方法依賴大量人工標注的數(shù)據(jù)。
在本文中,我們利用偽標簽來解決半監(jiān)督的視頻重點區(qū)域檢測問題。具體說來,我們提出了一個視頻重點區(qū)域檢測器,其包含了一個空間信息改良網(wǎng)絡和一個時空模塊。基于這樣的結構以及光流,我們提出了一個從稀疏標注的幀中生成像素級偽標簽的方法。利用生成的偽標簽以及部分人工標注,我們的檢測器學習到了時空中對比度和幀間一致性的線索,從而得到了準確的重點區(qū)域。
實驗證明了本方法在多個數(shù)據(jù)集上大幅度超過了現(xiàn)有的全監(jiān)督的方法。
6、論文名稱:Disentangled Image Matting
論文鏈接:暫無
關鍵詞:圖像去背
摘要:
我們提出了圖像去背 (Image Matting) 問題的一種全新框架。多數(shù)之前的圖像去背算法根據(jù)輸入三分圖 (trimap) 在圖像的指定區(qū)域中計算阿法值 (alpha)。對于被劃入三分圖待確認 (unknown) 區(qū)域中的完全背景和前景像素,這些方法期望精確地產(chǎn)生 0 和 1 的阿法值。
本文指出,之前解法實際上將兩個不同的問題混在了一起:1. 區(qū)分待確認區(qū)域中的前景、背景和混合像素; 2. 為混合像素精確地計算阿法值。其中我們稱第一個任務被稱為三分圖調(diào)整 (Trimap Adaptation),第二個任務為阿法值估計 (Alpha Estimation)。其中三分圖調(diào)整是典型的分類問題,阿法值估計是典型的回歸問題,本文提出的端到端的 AdaMatting 框架,通過使用多任務學習 (Multi-task Learning) 的方式分開解決這兩個問題,在多個圖像數(shù)據(jù)集上的所有常用指標中取得了目前最佳的結果。
7、論文名稱:Re-ID Driven Localization Refinement for Person Search
論文鏈接:暫無
關鍵詞:行人搜索
摘要:
在很多應用中,檢測器作為上游任務,其結果直接影響下游任務,尤其檢測框的定位精度。目前的主流做法是將檢測器單獨進行訓練,而沒有考慮下游任務,因此得到的檢測框?qū)ο掠稳蝿瘴幢刈顑?yōu)。
在本文中,我們以行人搜索任務為例,提出了一種新的優(yōu)化檢測框定位精度的方法,使其更加適合給定任務。行人搜索旨在從完整的圖片中檢測并識別行人,分為檢測和行人重識別(Re-ID)兩個任務。文章提出一種re-ID驅(qū)動的定位調(diào)整框架,用re-ID loss對檢測網(wǎng)絡產(chǎn)生的檢測框進行微調(diào)。文章設計了一個可導的ROI轉換模塊,能夠根據(jù)檢測框的坐標從原圖中crop出對應位置圖片,再送入re-ID網(wǎng)絡。由于整個過程可導,re-ID loss能夠?qū)z測框的坐標進行監(jiān)督,從而使檢測網(wǎng)絡能夠生成更適合行人搜索這個任務的檢測框。
通過大量的實驗結果證明,論文的方法多個數(shù)據(jù)集上取得了當前最先進的性能。
8、論文名稱:Vehicle Re-identification with Viewpoint-aware Metric Learning
論文鏈接:暫無
關鍵詞:車輛再識別、度量學習
摘要:
在車輛重識別任務中,極端的視角變化(變化視角可達180度)給現(xiàn)有的方法帶來了巨大挑戰(zhàn)。
受到人類識別車輛時認知方式的啟發(fā),我們提出了一種基于視角感知的度量學習方法。該方法針對相似視角和不同視角,分別在兩個特征空間學習兩種度量標準,由此產(chǎn)生了視角感知網(wǎng)絡(VANet)。在訓練過程,我們施加了兩種約束進行聯(lián)合訓練。在測試過程,我們首先估計車輛的視角,并基于估計結果采用對應的度量方式進行度量。
實驗結果證實了VANet能夠顯著地提高車輛重識別的準確度,在識別拍攝視角不同的車輛對時效果更為明顯。我們的方法在兩個基準數(shù)據(jù)集上都實現(xiàn)了目前最好的結果。
9、論文名稱:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning
論文鏈接:https://arxiv.org/abs/1903.10258
關鍵詞:模型壓縮、元學習
摘要:
Channel Pruning 是一種有效的模型壓縮方法,我們的方法 MetaPruning 提出了一種新的Pruning思路。
傳統(tǒng)Pruning往往需要人工或基于一些經(jīng)驗準則設定各層的壓縮比例,然后迭代選擇去除哪些channel,這個過程較耗時耗力。MetaPruning,跳過選擇哪個channel,直接搜索每層保留多少channel。為了既高效又準確地找到最優(yōu)的每層channel組合,MetaPruning 首先訓練一個PruningNet,用meta-learning預測各個可能的裁剪后網(wǎng)絡(PrunedNet)的精度。借用Network Architecture Search的思想,用進化算法搜索最優(yōu)的PrunedNet。PruningNet 直接為PrunedNet預測了可靠的精度,使得進化搜索非常高效。
最后MetaPruning 比MobileNet V1/V2 baseline精度提升高達9.0%/9.9%。相比于當前最優(yōu)的AutoML-based Pruning 方法,MetaPruning也取得了更高的精度。并且MetaPruning非常靈活,可以適用于FLOPs限制下的pruning或者針對特定硬件速度限制的pruning。
這篇論文是香港大學,清華大學,曠視以及華中科技大學聯(lián)合出品。
論文一作是來自香港大學的博士Zechun Liu。
10、論文名稱:Symmetry-constrained Rectification Network for Scene Text Recognition
論文鏈接:暫無
關鍵詞:文字識別
摘要:
由于文字字體、形狀的多樣性以及自然場景的復雜性,自然場景的文字識別一直是一項十分具有挑戰(zhàn)性的任務。近些年來,不規(guī)則形狀場景文字的識別問題吸引了越來越多研究者的目光,其中一個有效且直觀的研究方向,就是對文字區(qū)域進行識別前的矯正,即在識別之前把不規(guī)則的文字進行矯正成正常形狀。然而,簡單的文字矯正可能會對極度變形或者彎曲的文字失去作用。
為了解決這一問題,我們提出了ScRN(Symmetry-constrained Rectification Network),一個利用文字對稱性約束的文字矯正網(wǎng)絡。ScRN利用了文字區(qū)域的很多數(shù)學屬性,包括文字的中心線、字符大小以及字符方向信息。這些信息可以幫助ScRN生成精確的文字區(qū)域描述,使得ScRN獲得比已有方法更優(yōu)的矯正效果,從而帶來更高的識別精度。
我們在多個不規(guī)則數(shù)據(jù)集上(ICDAR 2015, SVT-Perspective, CUTE80)都取得了較高的識別精度提升。
11、論文名稱:Learning to Paint with Model-based Deep Reinforcement Learning
論文鏈接:https://arxiv.org/abs/1903.04411
開源代碼:https://github.com/hzwer/ICCV2019-LearningToPaint
關鍵詞:強化學習、繪畫
摘要:
如何讓機器像畫家一樣,用寥寥數(shù)筆創(chuàng)造出迷人的畫作?結合深度強化學習方法和神經(jīng)網(wǎng)絡渲染器,我們讓智能體在自我探索中學會用數(shù)百個筆畫繪制出紋理豐富的自然圖像,每一個筆畫的形狀、位置和顏色都是由它自主決定的。智能體的訓練過程不需要人類繪畫的經(jīng)驗或筆畫軌跡數(shù)據(jù)。
這篇論文的作者是北大本科生黃哲威,信息學競賽出身,曾入選過福建省隊。在進入北大信科一年之后,他成為了曠視科技智能計算組(IC組)的實習生。
對這只AI寫意畫家,量子位曾做過詳細報道:
https://mp.weixin.qq.com/s/1QQ2_vkQ_vLvuxvR-fboQg
— 完 —