港大阿里「視覺AI任意門」，一鍵向場景中無縫傳送物體

巴比特_

2023-07-23 04:27:49

來源：量子位

點兩下鼠標，就能把物體無縫「傳送」到照片場景中，光線角度和透視也能自動適應。

阿里和港大的這個AI版「任意門」，實現了零樣本的圖像嵌入。

有了它，網購衣服也可以直接看上身效果了。

因為功能和任意門十分相似，所以研發團隊給它起的名字就叫AnyDoor。

AnyDoor一次能夠傳送多個物體。

不僅如此，它還能移動圖像裡的已有物品。

有網友看了之後讚歎到，或許接下來就會進化到（把物體傳入到）視頻了。

零樣本生成逼真效果

相對於已有的類似模型，AnyDoor具有零樣本操作能力，無需針對具體物品調整模型。

除了這些需要進行參數調節的模型之外，AnyDoor相對於其他Reference類模型也更為準確。

實際上，其他的Reference類模型只能做到保持語義一致性。

通俗地說，如果要傳送的物體是一隻貓，其他模型只能保證結果中也有一隻貓，但相似度無法保證。

我們不妨把AnyDoor的效果放大看看，是不是看不出什麼破綻？

用戶評價的結果也證實，AnyDoor在質量和準確度方面表現均優於現有模型（滿分4分）。

而對於已有圖像中物體的移動、換位，甚至改變姿態，AnyDoor也能出色完成。

那麼，AnyDoor是如何實現這些功能的呢？

工作原理

要想實現物體的傳送，首先就要對其進行提取。

不過在將包含目標物體的圖像送入提取器之前，AnyDoor首先會對其進行背景消除。

然後，AnyDoor會進行自監督式的物體提取並轉換成token。

這一步使用的編碼器是以目前最好的自監督模型DINO-V2為基礎設計的。

為了適應角度和光線的變化，除了提取物品的整體特徵，還需要額外提取細節信息。

這一步中，為了避免過度約束，團隊設計了一種用高頻圖表示特徵信息的方式。

將目標圖像與Sobel算子等高通濾波器進行卷積，可以得到含高頻詳情的圖像。

同時，AnyDoor利用Hadamard對圖像中的RGB色彩信息進行提取。

結合這些信息和過濾邊緣信息的遮罩，得到了只含高頻細節的HF-Map。

最後一步就是將這些信息進行注入。

利用獲取到的token，AnyDoor通過文生圖模型對圖像進行合成。

具體來說，AnyDoor使用的是帶有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是這樣。而在訓練方面，也有一些特殊的策略。

###### △AnyDoor使用的訓練數據集

儘管AnyDoor針對的是靜態圖像，但有一部分用於訓練的數據是從視頻當中提取出來的。

對於同一物體，視頻當中可以提取出包含不同背景的圖像。

將物體與背景分離後標註配對，就形成了AnyDoor的訓練數據。

不過雖然視頻數據有利於學習，但還存在質量問題需要解決。

於是團隊設計了自適應時間步採樣策略，在不同時刻分別採集變化和細節信息。

通過消融實驗結果可以看出，隨著這些策略的加入，CLIP和DINO評分均逐漸升高。

團隊簡介

論文的第一作者是香港大學博士生陳汐（Xi Chen），他曾經是阿里巴巴集團算法工程師。

陳汐的導師Hengshuang Zhao是本文的通訊作者，研究領域包括機器視覺、機器學習等。

此外，阿里方面還有來自達摩院、菜鳥集團的研究人員也參與了這一項目。

論文地址：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言