谷歌研發(fā)深度學(xué)習(xí)系統(tǒng)模擬攝影師工作,獲得了專業(yè)評(píng)價(jià)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
機(jī)器學(xué)習(xí)(ML)在許多目標(biāo)明確的領(lǐng)域有優(yōu)秀的表現(xiàn)。具有明確正誤答案區(qū)分的任務(wù)將有助于訓(xùn)練,而且能讓算法實(shí)現(xiàn)預(yù)設(shè)的目標(biāo),比如準(zhǔn)確地從圖像中識(shí)別物體,或者合理的將語(yǔ)言進(jìn)行翻譯。然而,也有許多領(lǐng)域的任務(wù)是很難客觀評(píng)價(jià)的,在諸如評(píng)價(jià)一張照片美麗與否這種太主觀的問(wèn)題上時(shí)這與每個(gè)人的審美有關(guān),就不太適合用機(jī)器學(xué)習(xí)來(lái)解決了。
圖:賈斯珀國(guó)家公園的一張專業(yè)攝影照
為了研究機(jī)器學(xué)習(xí)是如何學(xué)習(xí)主觀概念的,Google針對(duì)藝術(shù)性的創(chuàng)作引入了一種試驗(yàn)性的深度學(xué)習(xí)系統(tǒng)。這個(gè)系統(tǒng)會(huì)模仿專業(yè)攝影師來(lái)展開工作。它的工作流程如下:從谷歌街景中瀏覽景觀圖,分析出最佳的構(gòu)圖,然后進(jìn)行各種后期處理,從而創(chuàng)造出一幅賞心悅目的圖像。
這位虛擬攝影師通過(guò)瀏覽阿爾卑斯山、加拿大的班夫及賈斯珀國(guó)家公園、加州BigSur和黃石國(guó)家公園等地的4萬(wàn)張全景照片,創(chuàng)作了許多令人印象深刻的作品,其中一些甚至達(dá)到了專業(yè)水準(zhǔn)專業(yè)攝影師如此評(píng)價(jià)到。
訓(xùn)練模型雖然照片中的美感可以用類似AVA系統(tǒng)中的數(shù)據(jù)集來(lái)模擬,但是就這么直接的用AVA系統(tǒng)來(lái)處理照片,可能會(huì)在美感上有部分方面的缺失,比如做出的照片過(guò)飽和。再者,如果想通過(guò)監(jiān)督學(xué)習(xí)適當(dāng)?shù)貜亩鄠€(gè)方面來(lái)學(xué)習(xí)美感,所需的標(biāo)簽數(shù)據(jù)集會(huì)很難收集,所以這也不是一個(gè)好方法。
他們的方法只需要一些高質(zhì)量的照片,不需要后期前后圖像的對(duì)比或額外的標(biāo)簽。這個(gè)系統(tǒng)能自動(dòng)將照片中的美感解析成不同方面,每一方面都能通過(guò)相反的圖像操作產(chǎn)生的負(fù)面例子來(lái)單獨(dú)學(xué)習(xí)。
通過(guò)使圖像處理半正交化,可以找到快速和獨(dú)立的最優(yōu)化步驟,從構(gòu)圖、飽和度/HDR水平和明暗的張力上對(duì)圖像進(jìn)行美化:
圖:圖(a)是全景圖,圖(b)將圖(a)進(jìn)行裁切,圖(c)是對(duì)圖(b)進(jìn)行飽和度和HDR優(yōu)化處理,圖(d)是應(yīng)用戲劇張力蒙版之后的效果。
他們用傳統(tǒng)的圖像濾波器生成了包括飽和度、HDR細(xì)節(jié)和構(gòu)圖的負(fù)面例子,還引入了一種名為戲劇張力蒙版(dramaTIcmask)的特殊操作,它是在學(xué)習(xí)明暗張力概念的過(guò)程中一同產(chǎn)生的。
這些負(fù)面例子是這樣生成的:應(yīng)用一組圖像濾波器,隨機(jī)地調(diào)整高質(zhì)量照片的亮度,將圖片的質(zhì)量變差。在訓(xùn)練中,他們使用生成對(duì)抗網(wǎng)絡(luò)(GAN),在這種模式下,生成網(wǎng)絡(luò)會(huì)創(chuàng)建一個(gè)蒙版來(lái)改善負(fù)面例子中的光線,判別網(wǎng)絡(luò)則試圖將光線改善后的照片與樣本照片進(jìn)行區(qū)分。
與vignette這樣的固定形狀濾波器(shape-fixedfilter)不同,戲劇張力蒙版增加了內(nèi)容感知亮度調(diào)節(jié)部分。GAN訓(xùn)練天然的競(jìng)爭(zhēng)性極大地豐富了調(diào)節(jié)圖像特性的能力,在論文中可以看到更多的訓(xùn)練細(xì)節(jié)。
結(jié)果
下面是這種系統(tǒng)基于Google街景的一些創(chuàng)作。如下圖所示,經(jīng)過(guò)訓(xùn)練后能夠判斷美感的濾波器創(chuàng)造出了一些讓人驚嘆的照片(包括文中最初出現(xiàn)的照片):
圖:加拿大,賈斯珀國(guó)家公園
圖:瑞士,茵特拉肯
圖:意大利,ParcodelleOrobieBergamasche公園
圖:加拿大,賈斯珀國(guó)家公園
專業(yè)評(píng)估為了評(píng)價(jià)這個(gè)算法的效果如何,他們?cè)O(shè)計(jì)了一個(gè)類“圖靈測(cè)試”實(shí)驗(yàn):將這個(gè)系統(tǒng)創(chuàng)作出來(lái)的照片和其他不同質(zhì)量的照片摻雜在一起,然后把它們展示給幾個(gè)專業(yè)攝影師。他們要求這些攝影師為每張照片評(píng)分,分?jǐn)?shù)是基于如下標(biāo)準(zhǔn):
1分:傻瓜式拍照,照片沒(méi)有考慮構(gòu)圖以及光線等因素。
2分:沒(méi)有攝影基礎(chǔ)的一般大眾拍出來(lái)的照片,看起來(lái)還可以,但沒(méi)有明顯的藝術(shù)感。
3分:半專業(yè)。照片中展示出了明顯的藝術(shù)感,攝影師正朝著專業(yè)攝影師邁進(jìn)。
4分:專業(yè)。
在下面的圖表中,曲線顯示了專業(yè)攝影師為已經(jīng)預(yù)估分?jǐn)?shù)的圖片打的分?jǐn)?shù)。對(duì)于他們預(yù)估的高分圖片,大約有40%收到了“半專業(yè)”或“專業(yè)”的評(píng)價(jià)。
未來(lái)的研究
街道全景圖為這個(gè)項(xiàng)目提供了一個(gè)測(cè)試平臺(tái)。有一天,這種技術(shù)甚至可以幫助我們現(xiàn)實(shí)世界中拍出更好看的照片。