資訊

DeepMind 發(fā)布 VQVAE-2，圖片生成效果超越 BigGAN

2019-06-12 17:08:07

近日，DeepMind 的研究人員宣布，VQVAE-2 問世了！

VQ-VAE 是 Vector Quantised-Variational Auto Encoder 的簡寫，此次的 VQ-VAE2 是 DeepMind 基于第一代 VQ-VAE 研究出來的改進(jìn)模型。相關(guān)的論文已被 ICLR2019 接收為口頭報(bào)告論文，DeepMind 研究員 Suman Ravuri 做了精彩的現(xiàn)場演講。

論文 ARIXV 鏈接：http://arxiv.org/abs/1906.00446

論文摘要如下：

我們探討了矢量量化變分自動(dòng)編碼（VQ-VAE）模型在大規(guī)模圖像生成中的應(yīng)用。為此，我們對(duì)VQ-VAE 中使用的自回歸先驗(yàn)進(jìn)行了縮放和增強(qiáng)，目的是生成比以前具有更高相關(guān)度和保真度的合成樣本。我們使用簡單的前饋編解碼器網(wǎng)絡(luò)，這讓我們的模型對(duì)于編碼\解碼速度至關(guān)重要的應(yīng)用非常有用。此外，VQ-VAE 僅僅只需要在壓縮潛在空間中對(duì)自回歸模型進(jìn)行采樣，這比在像素空間中的采樣在速度上快一個(gè)數(shù)量級(jí)，對(duì)于大型圖像尤其如此。我們證明了一個(gè) VQ-VAE 的多尺度層次組織，加上強(qiáng)大的先驗(yàn)潛在代碼，能夠在多種數(shù)據(jù)集（如 ImageNet）上生成質(zhì)量與最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)相媲美的樣本，同時(shí)不受 GAN 的已知缺點(diǎn)，如模式崩潰、多樣性的缺乏等的影響。

DeepMindAI 的這一研究表明，當(dāng)用于訓(xùn)練分類器（數(shù)據(jù)增強(qiáng)）時(shí)，GAN 生成在看起來真實(shí)的樣本的能力有限。初始分?jǐn)?shù)與分類表現(xiàn)呈負(fù)相關(guān)。

論文的三位作者之一，DeepMind 的研究人員 Aaron van den Oord 在 twitter 上表示，這是一個(gè)在分層壓縮潛在空間中的強(qiáng)大自回歸模型，在創(chuàng)建示例時(shí)，任何模式中都沒有遇到崩潰問題。

更多示例和細(xì)節(jié)如下：

他們使用一個(gè)分層的 VQVAE，將圖像壓縮成一個(gè)潛在空間，相對(duì)于 ImageNet 來說，這個(gè)空間要小 50 倍，相對(duì)于 FFHQ 面來說，這個(gè)空間要小 200 倍。PixelCNN 僅對(duì)最新的產(chǎn)品進(jìn)行建模，使其能夠?qū)⑵淠芰τ糜谌纸Y(jié)構(gòu)和最明顯的特征上。

他們 256 像素的兩級(jí) ImageNet VQVAE 中的樣本如下：

結(jié)果，他們發(fā)現(xiàn)，這些樣本在多樣性方面比競爭對(duì)手的方法生成的樣本要好得多。

DeepMind 發(fā)布 VQVAE-2，圖片生成效果超越 BigGAN

對(duì)于百萬像素的人臉（1024x1024），他們使用了三級(jí) VQVAE 模型。

更多的樣本和高分辨率未壓縮圖像可以在這里找到：https://t.co/EGaUMHA7FN?amp=1

DeepMind 發(fā)布 VQVAE-2，圖片生成效果超越 BigGAN

感興趣的童鞋可以下載相關(guān)論文，開始愉快地學(xué)習(xí)吧~

via：https://mobile.twitter.com/avdnoord/status/1135900129402208257

來源 | 雷鋒網(wǎng)
作者 | 王雪佩

日韩专区第一页-日韩中文字幕在线亚洲一区-日韩中文字幕在线观看视频-日韩中文字幕在线播放-日韩中文字幕一区二区不卡-日韩中文字幕一区

啟智社區(qū)，確實(shí)給力

資訊

DeepMind 發(fā)布 VQVAE-2，圖片生成效果超越 BigGAN