日韩专区第一页-日韩中文字幕在线亚洲一区-日韩中文字幕在线观看视频-日韩中文字幕在线播放-日韩中文字幕一区二区不卡-日韩中文字幕一区

OpenI 啟智社區(qū)

啟智社區(qū),確實給力

當前位置:首頁 > 資訊 > 行業(yè)資訊 >

草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

本文作者為華為諾亞方舟實驗室鄒常青研究員。在本文中,作者從淺入深詳細講述了中山大學(xué)、華為加拿大諾亞方舟實驗室、香港城市大學(xué)、谷歌公司等合作發(fā)表在 SIGGRAPH ASIA 2019的論文 “Language-based Colorization of Scene Sketches”,該論文研究了基于自然語言交互的草圖卡通化技術(shù),能夠在給定一個草圖下,計算機接收和分析用戶輸入語言指令,自動地將草圖變成彩色卡通圖。
 
草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色
人們常說一圖勝千言。

手繪草圖數(shù)據(jù)因為其直觀、易繪的特點,被人們廣泛用于表達和總結(jié)對客觀事物的認識和理解:如漫畫師用草圖來辛辣地表達某一個觀點或想法,小朋友用草圖來創(chuàng)作故事、設(shè)計師用草圖來記錄腦海中的瞬間的靈感。

而人類對客觀事物的認識、理解深度也通常能夠反映在其所繪制的草圖上。心理學(xué)的研究領(lǐng)域的研究認為 “The way children draw at the age of four can be a predictor of later intelligence”,即兒童的畫圖的方式能夠用來預(yù)測其未來的智力水平,而利用涂色或畫圖來訓(xùn)練兒童的認知已被心理學(xué)家證實為幫助兒童智力發(fā)展的重要方式。

草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

心理學(xué)研究表明兒童的草圖繪畫方式直接反映智商,而其智商發(fā)展也可以通過繪畫等方式訓(xùn)練
 
除了心理學(xué)領(lǐng)域,草圖數(shù)據(jù)因為及其獨特的魅力吸引了計算機視覺、計算機圖形學(xué)、人機交互等領(lǐng)域的研究者的濃厚的興趣。

研究人類對于認知草圖、用草圖表達思想背后的原理跟機制并用計算模型來建模,由此開發(fā)出新的應(yīng)用是研究人員一個重要的努力方向。

例如,
  • 早在上世界七八十年代,現(xiàn)代計算機視覺領(lǐng)域奠基人Marr博士便開始致力于草圖的計算解釋研究;
  • 現(xiàn)代反向工程之父、英國卡迪夫大學(xué)的Ralph R. Martin教授提出模擬人的視覺系統(tǒng)從線畫圖直接重建出三維模型;
  • MIT的Department of Brain and CognitiveSciences (大腦與認知科學(xué)系)的另外一個大佬Josh Tenenbaum教授更是把從少量數(shù)據(jù)、稀疏數(shù)據(jù)來研究人類潛在的認知邏輯當成為之奮斗終身的研究課題。
     
草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

在11月20日剛剛結(jié)束的計算機圖形學(xué)領(lǐng)域最具影響力的國際頂級會議SIGGRAPH(ASIA) 大會上,中山大學(xué)、華為諾亞方舟實驗室、聯(lián)手香港城市大學(xué)、谷歌公司發(fā)表了他們在復(fù)雜草圖的機器理解方向的最新進展。

值得一提的是,SIGGRAPH/SIGGRAPH ASIA是計算機圖形學(xué)領(lǐng)域最具影響力的會議,因為極其專業(yè)的審稿以及對論文工作量的高要求,使得這個會議被認為是計算機領(lǐng)域公認的高難度頂級學(xué)術(shù)會議。

草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

對Sketchy Scene數(shù)據(jù)庫中的實例的交互涂色展示
 
這篇題為《Language-based Colorization ofScene Sketches》的文章可以認為是一個基于自然語言的人機交互涂色系統(tǒng):給定一個草圖,計算機接收和分析用戶輸入語言指令并自動地將草圖變成彩色卡通圖。

這個問題看似簡單,其實非常具有挑戰(zhàn)性,涉及到兩種非常復(fù)雜的不同模態(tài)輸入數(shù)據(jù)(草圖及自然語言)的理解,而對于這兩種數(shù)據(jù)的理解,尤其在少量訓(xùn)練樣本的下如何同時處理這兩種數(shù)據(jù)的交互,目前計算機領(lǐng)域仍沒有很好的解決方案。

除了研究本身的價值,文章的作者期望這篇文章所提出的技術(shù)能夠為兒童認知開發(fā)提供一個新的應(yīng)用軟件,或者為黑白漫畫書批量處理成卡通書提供參考方案。

草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

對 Freehand草圖的交互涂色展示
 
在技術(shù)實現(xiàn)上,為了降低模型推理的難度,文章將涂色問題解耦為分割、涂色兩個子問題,并分步涂色整個草圖的前景跟背景。

具體地,一個新穎的參考實例分割算法(Referring Instance Segmentation)被首先用來根據(jù)用戶的文字輸入自動分割出感興趣的前景物體,然后一個基于生成對抗網(wǎng)絡(luò)(GAN)以及圖-文特征融合算法的模型根據(jù)用戶的語言指令對分割出的前景物體進行上色,這個過程會自動執(zhí)行部件的分割以及顏色推理。

在完成部分或所有物體的涂色后,系統(tǒng)最后使用一個雙通道對抗網(wǎng)絡(luò)同時學(xué)習(xí)包括空白區(qū)域在內(nèi)的背景區(qū)域的分割和涂色。目前該論文的代碼以及數(shù)據(jù)已經(jīng)開源。

在技術(shù)脈絡(luò)上看,這篇論文是2018年計算機視覺頂級會議ECCV的一篇題《SketchyScene: Richly-Annotated Scene Sketches》的工作的進一步的延伸。

在這篇文章中,由馬里蘭大學(xué)與倫敦瑪麗女王大學(xué)的SketchX  Lab牽頭、聯(lián)合中山大學(xué)、山東大學(xué)以及加拿大Simon Fraser University 推出了第一個場景級別的草圖數(shù)據(jù)庫。

這個數(shù)據(jù)庫提供了8K張以上的場景級別的草圖的語義及實例分割的模板圖像數(shù)據(jù),基于提供的8K多張模板數(shù)據(jù),理論上其他用戶可以用實例替換的方式自動生成無限多的帶標注信息的場景草圖。
除了分割數(shù)據(jù),這個數(shù)據(jù)庫同時為每張草圖提供了對應(yīng)的參考卡通圖(草圖與參考圖的前景物體存在類別上的一一對應(yīng)關(guān)系)。

這個數(shù)據(jù)庫無疑是草圖理解這個問題上一個重要的工作,受這篇工作的啟發(fā),計算機圖形學(xué)的著名研究機構(gòu) MIT 跟法國國家信息與自動化研究所 INRIA 更是在2019年的SIGGRAPH ASIA 推出了另一個用于概念設(shè)計的草圖數(shù)據(jù)庫《OpenSketch: A Richly-Annotated Dataset of Product Design Sketches》。

在實驗驗證方面,這篇文章通過用戶調(diào)查形式從定量與定性兩個方面分析和展示了其方法對于不同形式的指令及不同風(fēng)格的草圖的有效性跟魯棒性。

論文同時也指出雖然自然語言是一個非常有前途的輸入方式,但是自然語言輸入也存在固定的缺點,比如比較難區(qū)分相近的顏色,因而作者認為要獲得更加實用的系統(tǒng),有必要結(jié)合自然語言輸入與別的模態(tài)的用戶輸入。


草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

系統(tǒng)對于輸入指令的容錯能力展示
 
草圖上色只需動動嘴,華為、中大、谷歌等合作新研究,黑白漫畫可批量上色

系統(tǒng)對于不同草圖風(fēng)格的魯棒性和泛化能力展示
 
 
論文還討論了一系列的不足之處,比如結(jié)果中存在顏色瑕疵,用戶指令理解泛化能力不足。草圖卡通化雖然是一個比較小的應(yīng)用,其作為復(fù)雜稀疏圖像數(shù)據(jù)理解的一個具體應(yīng)用,這篇文章作為一個開創(chuàng)性的工作充分地展示這個問題的難度、意義和應(yīng)用價值。相信在這篇文章的啟發(fā)下,在計算機視覺與計算圖形學(xué)領(lǐng)域?qū)霈F(xiàn)越來越多的對于草圖的研究興趣。

來源 | 雷鋒網(wǎng)
作者 | camel