谷歌AI模型在偽造手機拍照方面變得異常精準
谷歌的視覺AI模型讓我開始理解它名字的由來,因為在使用了幾天后,我只能用"瘋狂"來形容它:它生成的圖像真實到令人瘋狂。我盯著這些圖像看太久后感覺自己都要瘋了。如果我要找出一個理由來解釋為什么Nano Banana Pro的圖像看起來比之前的AI生成內容更加真實,那就是:它們看起來就像用手機相機拍攝的照片。
當然,如果仔細觀察,還是能找到一些破綻。比如文章開頭那張(并非真實的?。┏鞘腥诵械郎锨閭H的圖像。背景中的路燈看起來不太對勁,一些建筑立面——特別是更遠處的背景——看起來有些奇怪和方正。但如果我只是在社交媒體上隨便瀏覽這張照片呢?我絕對不會認為它是AI生成的。拍攝對象看起來很真實,但我認為圖像看起來不太完美的事實恰恰讓它更加可信。
明亮、平坦的曝光,寬廣的景深,略顯粗糙的細節(jié):這一切都讓我想到手機相機。流行iPhone相機應用Halide的聯合創(chuàng)始人Ben Sandofsky對此表示贊同。在上面那張AI生成的渡輪圖像中,他注意到了"智能手機照片中常見的激進圖像銳化處理。這是一種讓圖像'突出'的視覺技巧。"手機拍照的另一個標志是什么?噪點。"大多數AI生成的照片感覺過于干凈。這些照片中的紋理感覺就像來自微型智能手機傳感器。"
那么,谷歌的AI是從哪里獲得關于手機照片概念的呢?谷歌照片似乎是一個顯而易見的——也是深度問題性的——來源,但Gemini應用的全球傳播經理Elijah Lawal表示,"對于Nano Banana,我們不使用谷歌照片。"他還告訴我,Nano Banana Pro并沒有被特別調整為產生手機相機的外觀。"其中一個巨大的改進是它可以連接到谷歌搜索,"他說。如果你提示它創(chuàng)建一個關于今天天氣的信息圖表,它可以去查找溫度——以前,你需要在提示中包含更多這些信息。
根據Lawal的說法,這僅限于文本搜索,而非圖像搜索。但能夠自行獲取現實世界信息可能是這里的關鍵因素。Nano Banana Pro特別擅長向圖像添加在該背景下有意義的元素——即使你從未特別要求過它們。它可以添加歷史元素,如符合時代的衣服和汽車,而無需明確指示。當我要求它為西雅圖的假房子創(chuàng)建一個假Zillow房源時,它甚至添加了西北多重房源服務的水印。它在理解任務和添加這些小細節(jié)方面變得更好,而無需提示。
我要求Gemini為西西雅圖的一套工匠風格的白色油漆和黑色裝飾房屋提供Zillow房源。它返回了一個描述該地方的冗長純文本房源,但通過另一個提示,我使用Nano Banana Pro創(chuàng)建了一個配合描述的圖像。我沒有特別要求,但圖像中包含了2023年版權,這很有趣,還有一個水印,就像你在大西雅圖地區(qū)找到的基本上每張房地產照片上都有的那種。有趣的是,這不是當前的標識——而是以前的版本,與我2018年買房時每張照片上的標識相同。
我詢問谷歌Nano Banana如何可能想出這個,DeepMind產品經理Naina Raisinghani建議這是一個幻覺,提供了這樣的聲明:"Nano Banana Pro在角色一致性、圖像生成和基于搜索的準確性方面提供了重大升級。雖然這是我們迄今為止最精確的圖像模型,但AI幻覺可能會發(fā)生。如果圖像不太對,我們鼓勵您重試,因為后續(xù)嘗試通常會產生更符合您意圖的結果。"問題是,為房地產房源服務添加水印似乎正是模型按預期工作的表現。
無論有沒有水印,我想"待售"標志上的小字可能會暴露這是AI生成的,或者門廊上的盆栽植物看起來有點太完美,但說實話?即使我內心深處知道這不是真的,我也很難相信這房子不是真實的。如果我在房地產網站上遇到它,我不會多想,水印確實有助于讓它看起來真實。如果AI在模仿那些表明照片真實的信號方面變得如此出色,那么各位:我們完蛋了。
最令我擔心的是:AI的破綻越來越難以發(fā)現,Nano Banana在模仿讓圖像看起來真實的小細節(jié)方面越來越好。我們給它一些模糊的提示來描繪一個Verge記者報道現場活動;它添加了諸如記者手中帶有Verge標志的麥克風和屏幕下方的字幕等細節(jié)。沒有拼寫錯誤或外星人般的字母。沒有六根手指的手。沒有任何明顯暴露它是AI的東西,但有很多小細節(jié)來證明它是真實的。
一年前,甚至幾個月前,我有一種感覺,未來會有那么一天,除非另有證明,否則相信我在網上從不熟悉來源看到的任何照片或視頻都是不明智的。這次經歷讓我確信那一天不是在未來;它就是現在。適當調整你的AI雷達,如果它讓你有點瘋狂,也不要感到驚訝。
Q&A
Q1:Nano Banana Pro是什么?它有什么特別之處?
A:Nano Banana Pro是谷歌開發(fā)的AI圖像生成模型。它的特別之處在于能夠生成看起來像手機拍攝的照片,具有明亮平坦的曝光、寬廣景深和略顯粗糙的細節(jié),這些特征讓生成的圖像更加真實可信。
Q2:為什么Nano Banana Pro生成的圖像這么逼真?
A:主要原因是它能模仿手機相機拍照的特征,包括激進的圖像銳化處理、適當的噪點和不太完美的細節(jié)。此外,它還能連接谷歌搜索獲取實時信息,并自動添加符合場景的細節(jié)元素。
Q3:如何識別Nano Banana Pro生成的假圖像?
A:識別變得越來越困難,但仍可注意一些細節(jié),如背景中略顯奇怪的建筑、過于完美的植物、或不合理的水印等。但總的來說,AI破綻正變得越來越難以發(fā)現。






內部CRM登陸