
為什麼GPT-4沒有14歲人類的心智能力,以及為什麼我們應該停止用人類能力來描述AI
微軟發佈了GPT-4的能力評估報告,許多媒體報導了當中令人印象深刻的部分:GPT-4能通過莎莉小安測試(Sally-Anne test),因此「具備14歲人類的心智能力」。
GPT-4具備14歲人類的心智能力嗎?答案是NO,理由有很多,其中一個是GPT-4沒有能力像其他14歲人類一樣基於同儕壓力在抖音上發佈日後會讓自己後悔的內容(說到這,GPT-4也沒有能力後悔,這可以算是另一個理由)。[1]
我認為現在許多人評估AI能力的方式是錯的,他們過度將AI類比為人類,常見的思路:
- 某些人類能辦到某件事(像是通過司法官考試)
- 有個AI也能辦到這件事(像是通過司法官考試)
- 這個AI在此事件相關的面向上,跟這些人類一樣厲害(像是具備司法官該有的能力)
這個思路是錯的,希望我不需要提供太多說明你也能看出來。例如,一個司法官該要有能力分辨書記官跟飲水機(不然他麻煩就大了),但能通過司法官考試的AI不見得辦得到這件事情。
司法官考試就和市面上其他測試一樣,可以「擴大類推」,意思是說如果你通過司法官考試,這個事實可以佐證你具備一套特定能力,即使當中某些能力在你參與的那次考試並沒實際檢驗到。
但這種佐證只有當你是生活在這個社會的人類的時候才有效,因為我們大致了解平均人類的「技能樹生長步驟」,也知道人類在這個社會理當會學到什麼東西,因此可以從你具備某些能力推論出你具備其他能力。這些事情是如此,正是因為我們就是針對人類設計這些測驗的,這些測驗是設計來給現代社會裡的一般人類做,而不是給人工智能、哆啦A夢、智多星、靈芝草人,或或某個從異世界穿越過來的傢伙。
但上面這些做法不見得能用於AI。AlphaGo可以在圍棋盤上把你打扁,但可能無法下贏一般認為更簡單的其他遊戲。當然,AplaGo是專家系統,而有些人認為GPT-4有機會成為通用人工智能的雛形,但我相信同樣的說法還是適用。如果你理解走廊不能奔跑,我們可以推論你也知道走廊不能踩著狗大便溜冰,即使整個社會根本沒有真的討論過這件議題。如果某個版本的GPT答得出「走廊不能奔跑」,他能答出「走廊不能踩著狗大便溜冰」嗎?對於人類來說是常識的東西,對於AI來說未必是,問題在於,我們很難判斷什麼時候是什麼時候不是。
這種判斷會如此難做,有部分是來自於類神經網路深度學習的特色,黑盒子問題,AI專家可以觀察到自己的AI能完成哪些任務,但無法觀察到自己的AI是如何做出決策;另一部分的原因,則是來自於「心靈」這個概念本身。如果我們不確定這個概念的內涵,我們就不確定該如何在約定俗成的傳統範圍之外延伸使用它。兩個例子:
1. 卡牌遊戲
不同於AI已經致勝的西洋棋和圍棋,在另外一些遊戲裡,雙方玩家可能掌握不一樣的資訊。像是許多撲克牌遊戲、《魔法風雲會》(MTG: Magic the Gathering)。要玩好這些遊戲,人類玩家需要掌握自己的知識和別人的知識之間的差別並且利用,你得知道別人知道些什麼、不知道些什麼。你可以把這些遊戲當成莎莉小安測試更複雜和宅的版本。
當然,我們可以合理期待有天(或許下個月)AI會在這些遊戲稱霸,打敗最強的人類高手。但就算有個AI成為《魔法風雲會》世界冠軍,我們會認為它在比賽時算是「知道」自己的對手知道些什麼嗎?能穩定勝出比賽的AI,無疑展現了某組認知能力,但這組認知能力適合用「知道」、「推論」、「引誘」、「虛張聲勢」這些詞彙來描述嗎?當AI玩家表現得像是知道他的對手手上沒有紅心A,這種「知道」比較類似於我「知道」這篇文章再三段就寫完了,還是比較類似於我家的溫度計「知道」現在室溫是25度?當然,我不介意使用這些過度類比的方式來談論我家的溫度計和時鐘,但這是因為我不擔心有一天我們誤以為這些東西跟你我一樣具備心靈。
2. 演化
當空氣污染讓樹皮的顏色變深,蛾有可能演化出深色的翅膀並在結果上降低自己被捕食的機率。然而,你不會說這代表這些蛾「知道」深色翅膀比較安全。當深度學習歷程改變了類神經人工智能對外界刺激的反應方式,這當中發生的事情是類似人類的學習嗎?還是更類似古典制約實驗裡的狗?或者其實最類似於那些演化出黑色翅膀的蛾呢?我並不知道,但如果是後者,那麼用各種人類的心靈概念去描述機器,就會不準。
總之,雖然拿人類來類比很方便,不管你要描述的是人工智能還是某隻聰明絕頂的黑猩猩,但我們應該停止這樣做,因為既然AI的成長速度已經令人擔憂,我們最好盡早開始用比較準確的方式去理解和討論AI。說「AI(在某方面)擁有14歲人類的心智能力」,可能反而會阻礙我們理解AI(當然,也可能會阻礙我們理解心智本身,不過哲學家對心智的研究一直都沒什麼人在乎,所以這不算新消息😂)。
*感謝陳馨和鄭丁嘉給本文初稿的諮詢意見。
註解
- 如果你要對某件事情e後悔,必須:(1)你做了或促成e,(2)你認為e的發生是錯的,以及(3)你認為自己對這個錯誤有責任。後悔是滿複雜的概念。當語言模型式的AI前後給出不同意見,或者修正自己先前給出的意見,這並不代表它們後悔。↩