文╱約翰.強森、麥克.葛拉克;譯╱吳書榆

當你在擲硬幣時,你知道落地的不是人頭就是字。(雖然也有可能是邊緣著地,但一篇論文計算出這樣的機率每六千次中僅有一次,也為了本節的目的,我們就逕自忽略,假設銅板落地時不是人頭就是字。就像《美國統計學家》(American Statistician)期刊中的一篇文章所指,我們也假設「擲硬幣不能有偏誤」,導致某一面朝上的機率大幅高於另一面。此外,我們的做法是拋擲,而不是旋轉,根據「科學新知線上」〔Science News Online〕一篇文章所言,由於硬幣的質量中心偏向人頭那一面,旋轉硬幣的話,「字朝上的機率有 80%。」)

因此,拋擲一枚硬幣,沒有偏誤,也非邊緣著地的條件下,我們知道以下幾件事:

硬幣落地時,人頭朝上的機率為 50%

硬幣落地時,字朝上的機率也為 50%

如果你擲兩次硬幣,得到一次人頭朝上、一次字朝上的機率也是 50%。

但這就是有趣的地方。

如果你擲十次硬幣,得到五次人頭朝上、五次字朝上的機率不是 50%,實際上不到 25%。

如果你擲一百次硬幣,得到五十次人頭朝上、五十次字朝上的機率約 8%。

什麼?

你在這裡看到的,是(理論上)應該發生的事和實際發生的事的差別。硬幣並不曉得它應該一半的時候人頭朝上、另一半的時候字朝上。就算某件事是最可能發生的結果,也不表示一定會發生。

(很多人都被擲硬幣弄糊塗了,比方說,他們認為,擲兩次硬幣,應該有 3 分之 1 的機會得到兩次人頭,3 分之 1 的機會得到兩次字,3 分之 1 的機會得到一次人頭和一次字。但是,因為一次人頭和一次字的情況有兩種──第一次人頭而第二次字,以及第一次字而第二次人頭──因此,得到兩次人頭的機率實際上是 4 分之 1,兩次字的機會也是 4 分之 1,一次人頭和一次字則是 2 分之 1。請記住,當你在做預測時,要考慮到所有結果。)

當然,你擲硬幣越多次,每次得到的結果應該越接近 50% 對 50%。因為當你擲越多次,就是在擴大樣本數,樣本數越大──其他條件都相同之下──將讓你得出更精準的結果。(不過,樣本數大也不保證一定精準。1936年,《文學文摘》﹝Literary Digest﹞的一項調查收到了約兩百三十萬人回應,從中預測艾爾弗.蘭登﹝Alfred Landon﹞在美國總統大選中將得到 57% 的選票,打敗富蘭克林.羅斯福﹝Franklin Roosevelt﹞。但實際上,羅斯福贏得了 60% 以上的選票。)現在,還記得我們在前面談到,運用過去數據來預測未來?擲硬幣是過去數據並不重要的範例之一。因為擲硬幣是真正的隨機事件(至少在我們描述的情況下),面對真正的隨機事件,你無法用過去作為模型。

如果你擲十次硬幣,十次都出現人頭,下一次人頭朝上的機率依舊是 50%。就算你擲一百次、一千次,甚至一百萬次,每一次都是人頭朝上,下一次人頭朝上的機率依舊是 50%。因為我們已經有了一個已知模型,在這個模型中,硬幣落地時,人頭朝上的機率是 50%,字朝上的機率也是 50%。

很多人不了解這一點,直覺上,他們認為下一次一定是字朝上。但是,從統計上來說,這些人絕對錯了。沒錯,你不太可能連續擲出十次人頭,但是,這和未來完全無關。長期下來,會出現50%對50%的機率,但每一次擲硬幣都是獨立事件,和過去發生的事完全分開。

這便是「賭徒的謬誤」──在連輸幾次之後,就覺得之後會贏。「但實際上,」德州農工大學做的一項研究指出,「贏的機率和之前並無二致。」

(好消息是,這可能也不是你的錯。研究人員建構了一個人類大腦神經元的模型,發現喜歡交替模式﹝例如人頭―字﹞的神經元數量,大幅超越喜歡重複模式﹝例如人頭―人頭﹞的神經元。真有意思。但是請記住,這是以模型為基礎,而非真實的神經元。)

身為聰明的數據使用者,當你在分析預測時,要當心賭徒的謬誤。請自問:預測的模型和過去的數據有關嗎?還是,預測的是完全獨立於過去的事件?

我們引用《樂透統計數據》(Lotto Stats)雜誌上的這段話供你深思:「你眼前的資訊越多,你買的彩券贏面就越大。」

好的,小朋友們,請把耳朵捂起來,因為這段話是廢話,bullshit。

你知道什麼?

擲硬幣是結果已知的事件。你可以做任何你想做的預測,但你知道結果最多就三種:人頭、字,或者(如果你很重視技術面的話)邊緣。

很多預測都是落在已知的範疇中,這純粹是看衡量的方法。比方說,如果你試著預測以下這些事,你的選項就是有限的:

哪一隊會贏得世界大賽

在期初預測你期末的微積分分數

你的對手會出剪刀、石頭,還是布

另一方面,某些預測就有比較多的可能結果,甚至多到無限。比方說,如果你試著預測以下這些事,可能出現的結果範圍就廣得多:

五十年後誰會成為美國總統

明年廣播電台會放什麼歌

十年後你的職稱是什麼(要考慮到未來某些工作,今日甚至還不存在)

如果你能夠限制可能的結果,你的預測將會出現顯著變化,也可以降低預測誤差。我們可以在每一年職棒大聯盟季後賽被淘汰的隊伍中看到這一點,每次有隊伍被淘汰,留下的隊伍贏得世界大賽的機率就大幅提高。

在短期間做的預測會比較精準(前提是其他條件都相同),同樣的,在某些時候,藉由限制可能的結果,你也可以做出更好的預測。

巧合與機率

一如往常,人們如何使用數據,都是值得注意的重點。比方說,你說你今天晚上吃披薩的機率是百分之百,與下星期吃披薩的機率是百分之百,從機率上來說,是兩件不同的事。前面這句話要成立,表示你知道你今天晚上會吃披薩。至於後者,你可以下星期每個晚上都吃披薩,或者,七天裡有一個晚上吃披薩就算成立。

有些人會交錯使用「機率」和「勝率」兩個詞,但是這兩者並不相同,人們經常誤用。機率是某個結果發生的可能性。勝率,從統計上來說,是指樂見的結果對不樂見結果的比率。

想像你手邊有一副標準的五十二張撲克牌,你從中抽出一張。

你抽到花牌(J、Q、K)的機率是23%(一副牌裡有十二張花牌,12除以52是23%)

你抽到花牌的勝率是 12:40(一副牌裡有十二張花牌和四十張數字牌)

機率和勝率有關──你可以根據其中一個計算出另一個──但並不相同。

談到未來事件,你或許也聽過「風險」一詞。風險是另一個麻煩詞彙,對於不同的人來說,可能有不同的意義──如果你身在投資或保險產業,更是如此。然而,一般而言,風險不僅計入事件事件發生的機率,也考量了結果。

舉例來說,麥可很會玩雜耍,當他拋蘋果時,失誤讓蘋果掉到腳上的機率是1%;當他耍劍時,失誤讓劍掉到腳上的機率也是 1%。機率相同,但風險大不同。(《紐約時報雜誌》的〈在大自然的賭場裡〉是一篇讓人著迷又驚心的文章,談的是巨災風險,以及低估颶風造成的災害,如何讓美國保險業幾乎破產。)

機率低,並不代表不會發生。《大西洋月刊》(Atlantic)刊出一篇文章,文中說道,美國聯邦航空總署(FAA)對某些零件的標準是「失靈機率 10 億分之 1」,也就是 10 的負 9 次方。「聯邦航空總署說,這樣的標準可以說是『不可能』。」但這並不是不可能。如果統計做對的話,這 10 億分之 1 的機率,實際上可能就在十億次當中發生一次。

就像伯格提到的,這正是賭場不會放比爾.蓋茲進來下一筆 50 億美元賭注的理由。「如果這家賭場是全世界最倒楣的一群人的話,這筆賭注將會讓他們破產。」

尤其是,當你檢視大規模的數據集合時,你可以預期,你會看到這些機率極低的事件真的發生了。就像《華爾街日報》一篇討論樂透選號的文章提到的,「全世界每個星期有數百萬人在為數百種樂透選號,一定會發生巧合。」

來看看黑天鵝的範例。幾百年前,人們假設不可能有黑天鵝,而這純粹是因為他們過去從來沒看過。但是,沒看過黑天鵝,並不代表黑天鵝不存在,只是因為我們沒看過罷了──或者說,還沒看過。如今,「黑天鵝」用來指稱可能性極低,然而,一旦發生就會造成極大衝擊的事件。這個詞因為納西姆.尼可拉斯.塔雷伯(Nassim Nicholas Taleb)而流行起來,他撰寫了大量以不確定性為主題的文章。還沒發生的事,不代表不能、或者不會發生。黑天鵝確實存在。

※ 本文摘自《一次看懂小數據》立即前往試讀►►►

  • 用Line傳送