「AI真的可以製作出像照片一樣逼真的臉孔。」深度偽造與「有圖有真相」時代的終結

發表於 2022-09-292023-06-07By Readmoo編輯團隊好書秒讀

作者
最新文章

Readmoo編輯團隊

閱讀最前線編輯群。

文／凱德．梅茲；譯／王曉伯

2013年秋天，伊恩．古德費洛（Ian Goodfellow）與大學實驗室夥伴在酒吧舉行歡送派對。大家就座，開始猛灌精釀啤酒。酒過三巡，古德費洛已有些微醺，這群研究員開始爭論什麼才是製造能夠自我創造相片寫實影像的機器之最佳途徑。他們知道可以訓練一套神經網路來辨識影像，然後逆向操作，使其產生影像。但它只能產生一些精細、有如相片的影像，這樣的結果實在難以令人信服。

不過古德費洛的夥伴們有一個主意。他們可以對神經網路產生的影像進行統計分析──辨識特定像素的頻率、亮度，以及與其他像素間的關係。然後將這些分析結果與真正的相片進行比對，這樣就可以顯示神經網路哪裡出錯了。問題是他們不知道該如何將這些資料編碼輸入他們的系統之中──這可能需要數十億的統計次數。

古德費洛提出一個完全不同的解決之道。他解釋，他們應該做的是建立一套能夠向另一套神經網路學習的神經網路。第一套神經網路製造影像，企圖欺騙第二套神經網路認為這是真的。第二套會指出第一套的錯誤，第一套於是繼續嘗試欺騙，就這樣周而復始。他表示，如果這兩套相互對抗的神經網路對峙得夠久，他們就能製作出寫實的影像。

但是古德費洛的夥伴們並不認同。他們說這主意甚至比他們的還爛。同時，若非他已有些醉了，古德費洛可能也有同感。「要訓練一套神經網路已經夠難了，」清醒時的古德費洛可能會這麼說，「你不可能在正在學習演算法的神經網路中訓練另一套神經網路。」不過他在當時完全相信可以做到。

當天晚上他返回公寓，他摸黑坐在床邊的桌前，仍然有些微醺，筆記型電腦螢幕的光反射在他臉上。「我的朋友是錯的！」他不斷告訴自己，同時用其他計畫的舊編碼來拼湊他所說的兩套對抗的神經網路，並且開始以數百張相片來訓練這套新裝置。幾個小時後，它開始顯現他所預期的效能。生成的影像很小，和一片指甲一樣，而且還有一些模糊。不過它們看來就和相片一樣。他後來表示，他完全是運氣來了。「如果它不成功，我可能就會放棄了。」他後來在發表此一概念的論文中將它稱作「生成對抗網路」（generative adversarial networks，GANs）。自此之後，他成為全球人工智慧研究圈口中的「GAN之父」。

2014年夏天，他正式加入谷歌，當時他已在積極推廣GAN，強調這有助於加速人工智慧的研發。他在說明概念時，往往會以理查．費曼為例。費曼曾在教室黑板上寫道：「我創造不出來的東西，我就不了解。」古德費洛相信費曼此一名言除了人類之外，也可以適用於機器：人工智慧創造不出來的東西，它就不了解。他們指出，創造，能夠幫助機器了解周遭的世界。

「如果人工智慧可以用逼真的細節去想像世界──能夠學習如何想像逼真的影像與逼真的聲音──這樣可以鼓勵人工智慧學習現實存在的世界結構，」古德費洛說道，「它能幫助人工智慧了解所看到的影像與所聽到的聲音。」如同語音、影像辨識與機器翻譯，GAN代表深度學習又向前邁進一大步。或者，至少深度學習的研究人員是這麼認為。

臉書人工智慧研究中心主任楊立昆（Yann LeCun）在2016年盛讚GAN「是深度學習近二十年來最酷的概念」。古德費洛的成就激發出許多圍繞其概念的計畫，有的是加以改進，有的是據此進一步發展，有的則是發起挑戰。懷俄明大學的研究人員建造一套系統，能夠產生細小但是完美的影像，包括昆蟲、教堂、火山、餐廳、峽谷與宴會廳。輝達（NVIDIA）的一個研究團隊則是建造一套神經網路，可以將一幅顯示炎炎夏日的相片影像轉變成死氣沉沉的冬日。加州大學柏克萊分校的研究小組則設計出一套系統，能夠將馬匹的影像轉變成斑馬，把莫內的畫變成梵谷的畫。這些都是科技界與學界最受人矚目與最有趣味的研發計畫。

可是，就在這時，世界發生劇變。

2016年11月，唐納．川普贏得美國總統大選。美國生活與國際政局隨之出現天翻地覆的變化，人工智慧也難以倖免。幾乎是立即出現的衝擊，政府開始打壓移民引發人才流動的憂慮。在美國就讀的國際學生已在減少之中，如今更是大幅銳減，對外國人才依賴甚重的美國科學與數學界也因此開始受創。「我們是開槍打自己的腦袋，」西雅圖著名的艾倫人工智慧研究所（Allen Institute for Artificial Intelligence）的執行長說，「我們不是打在腳上，是腦袋。」

一些大企業已在擴張他們的海外研發作業。臉書分別在蒙特婁與楊立昆的家鄉巴黎設立實驗室。川普政府移民政策所帶來的威脅在2017年4月就已顯現，距離他上任不過三個月。與此同時，「深度學習運動之父」傑弗瑞．辛頓（Geoffrey Hinton）幫助成立向量人工智慧研究所（Vector Institute for Artificial Intelligence）。這是多倫多的一所研發育成機構，設立資金達一億三千萬美元，其中包括美國科技巨擘如谷歌與輝達的挹注。此外，加拿大總理賈斯汀．杜魯道（Justin Trudeau）也承諾以九千三百萬美元來扶持在多倫多、蒙特婁與愛德蒙頓的人工智慧研發中心。

年輕的研究員莎拉．薩波爾（Sara Sabour）是辛頓一位關鍵性的合作夥伴，她的事業歷程足以說明人工智慧圈內的國際色彩是多麼容易受到政治影響。2013年，在伊朗的謝里夫理工大學（Sharif University of Technology）完成電腦科學的學業之後，薩波爾申請到華盛頓大學深造，攻讀電腦視覺與其他方面的人工智慧，校方接受了她的申請。但是美國政府卻拒絕給予簽證，顯然是因為她在伊朗長大與就學的關係，而且她所要攻讀的領域，電腦視覺，也是潛在的軍事與安全科技。第二年，她成功進入多倫多大學，之後追隨辛頓加入谷歌。

在此同時，川普政府持續阻擋移民進入美國。「現在看來是美國企業獲益，」亞當．席格（Adam Segal）說道，他是美國外交關係協會（Council on Foreign Relations）有關新興科技與國家安全的專家，「但是就長期來看，科技與就業機會都不會在美國實現。」

但是人才的遷移還不是川普入主白宮所造成的最大變化。自選舉一結束，國內媒體就開始質疑網上假訊息對選舉結果的影響，引發社會大眾對「假新聞」的憂慮。起初祖克柏試圖消除這樣的關切，他在選舉的幾天後於矽谷的一個公開場合，輕描淡寫地表示，選民受假新聞左右是一個「相當瘋狂的想法」。但是許多記者、立法者、名嘴與公民都不予苟同。

事實上此一問題在選舉期間十分猖獗，尤其在臉書的社交網路，有數以萬計，甚至可能是百萬計的網民，分享一些虛假編造的故事，這些故事的標題例如「涉嫌希拉蕊電郵洩密案的聯邦調查局人員被發現死亡，顯為謀殺後自殺」或是「教宗方濟各支持川普競選總統震驚世界」。臉書後來揭露有一家與克里姆林宮關係甚密的俄羅斯公司，花了超過十萬美元向470個假帳戶與頁面買網路廣告，散播有關種族、槍枝管制、同性戀權利與移民等方面的假訊息，此一事件使得公眾更感關切。與此同時，社會大眾的憂慮也投射到GAN與其他相關的科技上，使它們以完全不同於過去的面貌成為世人焦點：這些科技看來是產生假新聞的管道。

然而人工智慧科學家當時的研究卻完全是在助長這種看法。華盛頓大學的一支團隊，利用神經網路製作出一段冒用歐巴馬說話的影片。中國一家新創企業的工程師則利用相同的科技讓川普說中文。其實偽造的影像並不是新玩意兒。自照相術發明以來，人們就開始利用技術來偽造相片。不過由於新式的深度學習可以自我學習這些工作──或者至少部分的工作──它們使得這樣的編輯變得更容易。政治人物與活動、民族國家、社會運動人士、不滿分子往後不需要僱用大批人手來製造與散播假圖片和假影片，他們只要建造一套神經網路就能自動完成這些工作。

在美國總統大選期間，人工智慧的圖像操作潛能距離完全發揮仍有幾個月的時間。當時GAN只能產生如指甲大小的圖像，而要將字句置入政治人物的口中仍需要罕有的專業技能，更別說其他一些費力的工作了。不過，在川普勝選一週年時，輝達在芬蘭實驗室的一支團隊開發出新款GAN，稱作「漸進式GAN」，可以利用對抗式的神經網路製造出實際尺寸的圖像，包括植物、馬匹、巴士與自行車，而且幾可亂真。不過這項科技最受矚目的是它能夠製造人臉。在分析數千張名人照片後，輝達這套系統可以製造出看來像是某位名人，但其實並不是的人臉圖像──一張看來像是珍妮佛．安妮斯頓（Jennifer Aniston）或席琳娜．戈梅茲（Selena Gomez）的臉孔，而實際上並非真人。這些被製造出來的臉孔看來都像真人，有他們自己的皺紋、毛孔、暗影，甚至個性。

「這項科技的進步速度太快，」菲利浦．艾索拉（Phillip Isola）說道，他是幫助開發此類科技的麻省理工學院教授，「剛開始時是這樣的，『好吧，這是一項有趣的學術性問題，你不可能用來製造假新聞，它只能產生一些略顯模糊的東西。』結果卻演變成『噢，你真的可以製作出像照片一樣逼真的臉孔。』」

在輝達宣布此一新科技的幾天後，古德費洛在波士頓一間小會議室發表演說，演說的幾分鐘前，一位記者問他該科技的意義何在。他指出他知道其實任何人都早已可以用 Photoshop 來製造假圖像，不過他也強調，重點是使得這項工作更為容易。「我們是促使已經具有可能性的事情加速實現。」他說道。

他解釋，隨著這些方法的改進，「有圖有真相」的時代也將結束。「從歷史來看，這其實有些僥倖，我們能夠依賴影片作為事情曾經發生過的證據，」他說道，「我們過去常常是根據誰說的、誰有動機這麼說、誰有可信度、誰又沒有可信度，來看一件事情。現在看來我們又要回到那個時代。」可是中間會有一段很艱難的過渡期。「遺憾的是現今世人不太會批判性思考。同時大家對於誰有可信度與誰沒有可信度都比較傾向於從族群意識去思考。」這也代表至少會有一段調整期。「人工智慧為我們打開了許多我們不曾打開的門。我們都不知道在門的另一邊會有什麼東西，」他說道，「然而在此一科技方面，卻更像是人工智慧關閉了我們這一代人已經習慣打開的門。」

調整期幾乎是立即展開，某人自稱為「深度偽造」（Deepfakes），開始將一些名人的頭像剪接至色情影片中，然後再上傳至網路。這個匿名的惡作劇者後來把能搞出這些花樣的應用程式公開，這類影片立刻大量出現在討論板、社交網路與如 YouTube 的影音網站。如 Pornhub、Reddit 與推特等平台趕忙禁止這種行為，但是此一操作與相關概念已滲透進入主流媒體。「深度偽造」也變成一個專有名詞，意指任何以人工智慧偽造，並在線上散播的影片。

※ 本文摘自《AI製造商沒說的祕密》，立即前往試讀►►►