谷歌AI模型在偽造手機(jī)拍照方面變得異常精準(zhǔn)
谷歌的視覺(jué)AI模型讓我開(kāi)始理解它名字的由來(lái),因?yàn)樵谑褂昧藥滋旌?,我只能?瘋狂"來(lái)形容它:它生成的圖像真實(shí)到令人瘋狂。我盯著這些圖像看太久后感覺(jué)自己都要瘋了。如果我要找出一個(gè)理由來(lái)解釋為什么Nano Banana Pro的圖像看起來(lái)比之前的AI生成內(nèi)容更加真實(shí),那就是:它們看起來(lái)就像用手機(jī)相機(jī)拍攝的照片。
當(dāng)然,如果仔細(xì)觀察,還是能找到一些破綻。比如文章開(kāi)頭那張(并非真實(shí)的?。┏鞘腥诵械郎锨閭H的圖像。背景中的路燈看起來(lái)不太對(duì)勁,一些建筑立面——特別是更遠(yuǎn)處的背景——看起來(lái)有些奇怪和方正。但如果我只是在社交媒體上隨便瀏覽這張照片呢?我絕對(duì)不會(huì)認(rèn)為它是AI生成的。拍攝對(duì)象看起來(lái)很真實(shí),但我認(rèn)為圖像看起來(lái)不太完美的事實(shí)恰恰讓它更加可信。
明亮、平坦的曝光,寬廣的景深,略顯粗糙的細(xì)節(jié):這一切都讓我想到手機(jī)相機(jī)。流行iPhone相機(jī)應(yīng)用Halide的聯(lián)合創(chuàng)始人Ben Sandofsky對(duì)此表示贊同。在上面那張AI生成的渡輪圖像中,他注意到了"智能手機(jī)照片中常見(jiàn)的激進(jìn)圖像銳化處理。這是一種讓圖像'突出'的視覺(jué)技巧。"手機(jī)拍照的另一個(gè)標(biāo)志是什么?噪點(diǎn)。"大多數(shù)AI生成的照片感覺(jué)過(guò)于干凈。這些照片中的紋理感覺(jué)就像來(lái)自微型智能手機(jī)傳感器。"
那么,谷歌的AI是從哪里獲得關(guān)于手機(jī)照片概念的呢?谷歌照片似乎是一個(gè)顯而易見(jiàn)的——也是深度問(wèn)題性的——來(lái)源,但Gemini應(yīng)用的全球傳播經(jīng)理Elijah Lawal表示,"對(duì)于Nano Banana,我們不使用谷歌照片。"他還告訴我,Nano Banana Pro并沒(méi)有被特別調(diào)整為產(chǎn)生手機(jī)相機(jī)的外觀。"其中一個(gè)巨大的改進(jìn)是它可以連接到谷歌搜索,"他說(shuō)。如果你提示它創(chuàng)建一個(gè)關(guān)于今天天氣的信息圖表,它可以去查找溫度——以前,你需要在提示中包含更多這些信息。
根據(jù)Lawal的說(shuō)法,這僅限于文本搜索,而非圖像搜索。但能夠自行獲取現(xiàn)實(shí)世界信息可能是這里的關(guān)鍵因素。Nano Banana Pro特別擅長(zhǎng)向圖像添加在該背景下有意義的元素——即使你從未特別要求過(guò)它們。它可以添加歷史元素,如符合時(shí)代的衣服和汽車(chē),而無(wú)需明確指示。當(dāng)我要求它為西雅圖的假房子創(chuàng)建一個(gè)假Zillow房源時(shí),它甚至添加了西北多重房源服務(wù)的水印。它在理解任務(wù)和添加這些小細(xì)節(jié)方面變得更好,而無(wú)需提示。
我要求Gemini為西西雅圖的一套工匠風(fēng)格的白色油漆和黑色裝飾房屋提供Zillow房源。它返回了一個(gè)描述該地方的冗長(zhǎng)純文本房源,但通過(guò)另一個(gè)提示,我使用Nano Banana Pro創(chuàng)建了一個(gè)配合描述的圖像。我沒(méi)有特別要求,但圖像中包含了2023年版權(quán),這很有趣,還有一個(gè)水印,就像你在大西雅圖地區(qū)找到的基本上每張房地產(chǎn)照片上都有的那種。有趣的是,這不是當(dāng)前的標(biāo)識(shí)——而是以前的版本,與我2018年買(mǎi)房時(shí)每張照片上的標(biāo)識(shí)相同。
我詢(xún)問(wèn)谷歌Nano Banana如何可能想出這個(gè),DeepMind產(chǎn)品經(jīng)理Naina Raisinghani建議這是一個(gè)幻覺(jué),提供了這樣的聲明:"Nano Banana Pro在角色一致性、圖像生成和基于搜索的準(zhǔn)確性方面提供了重大升級(jí)。雖然這是我們迄今為止最精確的圖像模型,但AI幻覺(jué)可能會(huì)發(fā)生。如果圖像不太對(duì),我們鼓勵(lì)您重試,因?yàn)楹罄m(xù)嘗試通常會(huì)產(chǎn)生更符合您意圖的結(jié)果。"問(wèn)題是,為房地產(chǎn)房源服務(wù)添加水印似乎正是模型按預(yù)期工作的表現(xiàn)。
無(wú)論有沒(méi)有水印,我想"待售"標(biāo)志上的小字可能會(huì)暴露這是AI生成的,或者門(mén)廊上的盆栽植物看起來(lái)有點(diǎn)太完美,但說(shuō)實(shí)話?即使我內(nèi)心深處知道這不是真的,我也很難相信這房子不是真實(shí)的。如果我在房地產(chǎn)網(wǎng)站上遇到它,我不會(huì)多想,水印確實(shí)有助于讓它看起來(lái)真實(shí)。如果AI在模仿那些表明照片真實(shí)的信號(hào)方面變得如此出色,那么各位:我們完蛋了。
最令我擔(dān)心的是:AI的破綻越來(lái)越難以發(fā)現(xiàn),Nano Banana在模仿讓圖像看起來(lái)真實(shí)的小細(xì)節(jié)方面越來(lái)越好。我們給它一些模糊的提示來(lái)描繪一個(gè)Verge記者報(bào)道現(xiàn)場(chǎng)活動(dòng);它添加了諸如記者手中帶有Verge標(biāo)志的麥克風(fēng)和屏幕下方的字幕等細(xì)節(jié)。沒(méi)有拼寫(xiě)錯(cuò)誤或外星人般的字母。沒(méi)有六根手指的手。沒(méi)有任何明顯暴露它是AI的東西,但有很多小細(xì)節(jié)來(lái)證明它是真實(shí)的。
一年前,甚至幾個(gè)月前,我有一種感覺(jué),未來(lái)會(huì)有那么一天,除非另有證明,否則相信我在網(wǎng)上從不熟悉來(lái)源看到的任何照片或視頻都是不明智的。這次經(jīng)歷讓我確信那一天不是在未來(lái);它就是現(xiàn)在。適當(dāng)調(diào)整你的AI雷達(dá),如果它讓你有點(diǎn)瘋狂,也不要感到驚訝。
Q&A
Q1:Nano Banana Pro是什么?它有什么特別之處?
A:Nano Banana Pro是谷歌開(kāi)發(fā)的AI圖像生成模型。它的特別之處在于能夠生成看起來(lái)像手機(jī)拍攝的照片,具有明亮平坦的曝光、寬廣景深和略顯粗糙的細(xì)節(jié),這些特征讓生成的圖像更加真實(shí)可信。
Q2:為什么Nano Banana Pro生成的圖像這么逼真?
A:主要原因是它能模仿手機(jī)相機(jī)拍照的特征,包括激進(jìn)的圖像銳化處理、適當(dāng)?shù)脑朦c(diǎn)和不太完美的細(xì)節(jié)。此外,它還能連接谷歌搜索獲取實(shí)時(shí)信息,并自動(dòng)添加符合場(chǎng)景的細(xì)節(jié)元素。
Q3:如何識(shí)別Nano Banana Pro生成的假圖像?
A:識(shí)別變得越來(lái)越困難,但仍可注意一些細(xì)節(jié),如背景中略顯奇怪的建筑、過(guò)于完美的植物、或不合理的水印等。但總的來(lái)說(shuō),AI破綻正變得越來(lái)越難以發(fā)現(xiàn)。






內(nèi)部CRM登陸