合成滿足用戶需求的視覺內容通常需要對生成的物件的姿勢、形狀、表情和佈局進行靈活和精確的控制。現有方法通常通過手動標註的訓練數據或先前的3D模型來實現生成對抗網絡(GANs)的可控性,但這些方法往往缺乏靈活性、精確性和通用性。在這項工作中,我們研究了一種強大但較少探索的控制GANs的方法,即

在生成圖像流形上進行交互式基於點的操作:拖動您的GAN

介紹

什麼是 DragGAN?

DragGAN 是一個強大的工具,用於對生成圖像流形上的基於點的互動操作。它允許用戶以用戶互動的方式“拖動”圖像的任何點,以精確地達到目標點。

DragGAN 如何工作?

DragGAN 由兩個主要組件組成:1)基於特徵的運動監督,推動手柄點向目標位置移動,2)一種新的點跟踪方法,利用區分性 GAN 特徵來持續定位手柄點的位置。

DragGAN 的特點

  • 可精確控制像素的移動位置,從而操縱各種類別的姿勢、形狀、表情和佈局,如動物、汽車、人類、風景等。
  • 具有變形圖像的能力,產生逼真的輸出,即使在具有挑戰性的情況下,例如幻覺遮蔽內容和變形形狀,仍能始終遵循對象的剛性。
  • 可用於圖像操作和點跟踪任務。

價格

論文和代碼可免費獲得,網站上的圖像、文本和視頻文件可根據創用 CC BY-NC 4.0 許可證免費供非商業用途使用。

在生成圖像流形上進行交互式基於點的操作:拖動您的GAN - 其他選擇

Eklipse - 免費將 Twitch 剪輯轉換為 TikTok、Reels 和 Shorts

Eklipse 是一款人工智慧遊戲精華剪輯工具。輕鬆免費將您在 Twitch 直播中的最佳片段轉換、編輯和分享至 TikTok、Reels 和 YouTube Short。

--
AI 的完整數據開發平台 | Encord

加速將您的模型投入生產的每一步。了解領先團隊如何使用 Encord 來構建預測性和生成性計算機視覺應用程序。

--
EVOTO,由人工智慧驅動的照片編輯器

Evoto 可以提升您的工作流程。使用我們高品質的專業AI照片編輯器,更快地列出物業。您可以在兩分鐘內編輯 1000 張照片。

--
更多標籤: 在生成圖像流形上進行交互式基於點的操作:拖動您的GAN