燒腦預警!5個生活中的概率問題,告訴你直覺多不靠譜

木果讀書會·行業探秘 NO.22

內容提要

從疾病檢測、抽樣調查、金融投資、到天氣預報、生物遺傳,甚至到搶紅包、找對象、玩抽卡手游,概率已經深入我們生活的每個角落,但很多時候,我們憑藉直覺做出的概率判斷,都與結果相差很大。

本期木果讀書會,數學愛好者喬柯通過5個生活中的概率問題,帶你發現數學之美,看看靠直覺算出的概率有多麼的不靠譜。

分享嘉賓

喬柯

(友情提示,下文含有大量燒腦、計算、邏輯判斷等問題,請按大腦承受程度酌量服用)

數學中好玩的問題實在是太多了,比如說「哥尼斯堡七橋問題」,也就是著名的一筆畫問題,它促使了圖論和幾何拓撲的誕生;比如說「四色定理」——任何一張地圖只用四種顏色就能使具有共同邊界的國家著上不同的顏色,但它的證明用了兩台計算機算了1200個小時,再比如說你一定聽過的哥德巴赫猜想,陳景潤攻克了「1+2」,這裡的「1+2」可不是「=3」的意思哦。

上面這些問題看起來簡單,講起來就很難了。作為一個數學愛好者,我今天想講點概率論。一來,概率論與我們的生活比較貼近。二來,人習慣於用確定的眼光看世界,如果你的火車票寫著30%概率7點開車,70%概率8點開,你一定會抓狂的。

我們對於確定性的偏愛促使了我們對於終極真理的追求,但也讓我們對很多現實中發生的不確定事件產生困惑,我們時常憑直覺推算概率,但這些直覺往往都是錯的。

為了證明這一點,我們不妨來看幾個在生活中也會遇到的概率問題。

1三門問題

假設你去參加一個電視綜藝節目。台上準備了三扇門。主持人告訴你,其中一扇門後藏有轎車,而另外兩扇門後只有山羊,你可以選擇一扇門,贏得門後的獎品。我們假設你更想要車而不是羊。

接下來,你做出了選擇,我們假設你選了A門,主持人事先知道門後有什麼,於是他從剩下的兩扇門中打開了一扇後面是羊的門,我們假設他開的是B,最後一扇是C。

主持人關切的問你,我已經幫你去掉一個錯誤答案了,你是否要從A換成C呢?」

請大家在不百度的情況下考慮一下,做出自己的選擇。

1.不換,依然選擇A。因為換門也不會提高贏得轎車的概率。

2.換,選擇C,贏得轎車的概率會提高。

「三門問題」也稱「蒙提霍爾問題」,他的原型來自馬丁·加德納(Martin Gardner)在1959年的《數學遊戲》專欄中提出的「三囚犯問題」。兩個問題雖然描述上差得很遠,但實質是一樣的。

1990年,有人結合主持人蒙提霍爾的電視節目將之改編成如上形式寄給了《展示雜誌》(Parade Magazine)的專欄作家瑪麗蓮·沃斯·莎凡特(Marilyn vos Savant)。這位瑪麗蓮來頭也不小,10歲時智商就高達228,被吉尼斯世界紀錄認定為擁有最高智商女性(2008年為止)。她在專欄里回答應該選擇「換」。結果引起了軒然大波。

近萬名讀者寫信表示反對,其中有博士頭銜的有上千人,其中92%認為她錯了。65%來自大學的信中,多數是來自數學和科學的院系,他們都反對她的答案,認為這只是女人的直覺,勸她修了概率課後再談這問題。

反對者們認為,當主持人去掉一個錯誤的門後,羊和車分別在餘下沒打開的門中隨機放置,每扇門後有車的概率都是50%。

然而事實是這樣嗎?我先告訴大家答案,一定要換,因為你獲得汽車的概率會從1/3上升到2/3。

為什麼呢?我們來具體計算一下。大家高中時一定學過概率論,但估計也都忘的差不多了,所以我們不使用公式,而是強調思考的方法。

解法一:

先明確一下——我們的目標是要轎車,所以要考察換門贏得轎車的可能性,與不換門贏得轎車的可能性,哪個更高?

不換門並猜中,意味著我們一開始就需要猜中,這個概率是1/3。

換門並猜中,意味著我們一開始只需要選錯門就可以了,主持人會從剩下的一對一錯中幫我們去掉一個錯誤答案,剩下的一個一定是對的,那麼我們換門就一定可以換到轎車,而一開始就選錯的概率是三分之二。

因此,我們發現換門策略的勝率是不換門策略的勝率的兩倍

如果你覺得這個邏輯聽起來很繞,或者還是不願相信,我還準備了更為直觀的說明。

友情提示:下面的解法還是比較燒腦,腦細胞餘量不足的小可愛們,可以自行跳過去下一個問題

解法二:

假設我們玩900次(或更多),車隨機放在三扇門後,期望上來看,應該有300次放在A門後,300次放在B門後,300次放在C門後。分別記No.1~300,No.301~600,No.601~900。

你一開始也是隨機地選,這意味著在No.1~300中,你有100次選到A,100次選到B,100次選到C,其他情況以此類推。

我們來考察你選擇A,主持人打開B的情形下,究竟換還是不換。(其他情形同理)

在No.1~100中,主持人會等概率的打開B或者C,假設No.1~50中打開了B,No.51~100中打開了C。

No.301~400中,不會打開B,只能打開C。

No.601~700中,不會打開C,一定會打開B。

因此在我們的假設情況下。只有No.1~50和No.601~700這些情況成立。

這之中車在A後有50個,車在C後有100個。

因此選C(即換)的勝率為100/(50+100)=2/3 是選A(不換)的兩倍。

其實在後一種證明中,我們通過非常直觀的方式引入了一個重要的思想,就是條件概率。我們計算的並不是,A與C中有車的概率。而是在主持人打開了B的情況下,A與C中有車的概率。前者的確是等概率的隨機分布,但後者,當主持人打開了B這一情況實際發生後,No.51~100這些情況就不能發生了,數學上講,也就是從我們的樣本空間里被剔除了。

有這樣一則笑話,據說一個飛機上有炸彈的概率為十萬分之一,有個人覺得這個概率還是不夠小,畢竟每天升空的飛機也不是小數目。他從來不敢坐飛機。但他的朋友突然有一天在飛機上遇到了他,吃驚地問,你咋不害怕了?

他說,飛機上有一個炸彈的概率不是十萬分之一么?那麼飛機上同時有兩個炸彈的概率就是一百億分之一吧?

朋友說,對。

這人說,一百億分之一足夠小了,因為我已經帶了一顆炸彈上來。

事實上,當他自己帶著炸彈上飛機後,存在一個炸彈這件事就確定了下來,是必然發生的。所以存在兩顆炸彈的可能性不再是十萬分之一乘以十萬分之一。而是1乘以是按十萬分之一。

從條件概率的角度考慮的話,由於他自己帶了一顆炸彈,因此樣本空間中不存在炸彈的情況已經剔除了,樣本空間縮小了十萬分之一,所以,飛機上同時出現兩個炸彈的概率會變大十萬倍,依然是十萬分之一,而不是一百億分之一。

2星期二男孩問題

你偶遇多年沒見的老同學,發現她早已結婚生子。你便打聽是男孩女孩。

老同學賣著關子說道。

其中一個是男孩,另一個是男孩的可能性有多大呢?

你感到挺莫名,按照上面所說的,一個男孩是已經發生的條件,不會對另一個孩子的性別產生影響。那麼另一個是男還是女的概率,不是50%嗎?

我問過的所有人幾乎都這麼認為。這不是一個生物學題,咱們就考慮理想情況,生男生女完全隨機。其實正確的答案是1/3。聽我一點一點分析。

我們假設有10000對夫婦都生了兩個孩子,那麼應該有2500個家庭是兩個男孩、2500個家庭是兩個女孩,5000個家庭是一男一女。

但是我們知道一定有一個是男孩,所以(女,女)這種情況不存在,因此,另一個是男孩的概率只有(男,男)也就是2500/(2500+2500+2500)=1/3。而女孩的概率是2/3。

如果我把問題改一下呢?

一對夫妻有兩個小孩,已知其中一個是白天出生的男孩,請問另一個是男孩的概率是多少?

一對夫妻有兩個小孩,已知其中一個是黑皮膚的男孩,請問另一個是男孩的概率是多少?

一對夫妻有兩個小孩,已知其中一個是O型血的男孩,請問另一個是男孩的概率是多少?

一對夫妻有兩個小孩,已知其中一個出生在星期二的男孩,請問另一個是男孩的概率是多少?

一對夫妻有兩個小孩,已知其中一個符合某種篩選條件n(該條件必須概率均等,如一周每天出生概率都一樣),請問兩個都是男孩的概率是多少?還是1/3嗎?

我給出一個計算,有興趣的話可以看看。我這裡假設篩選條件是n,比如血型,就是n=4,白天黑天n=2,星期n=7故對於一般的n,答案為(2n-1)/(4n-1)。

繼續友情提示:以下為超綱題的解答,腦細胞餘量不足的小可愛們,可以自行跳過去下一個問題

實際上,隨著n的變大,結果越來越趨近1/2。也就是說,如果我說其中一個男孩是2000年1月2日出生,喜歡畫畫,叫小明。這麼多篩選條件下,另一個人幾乎可以確定50%的概率是男孩。

大家一定超級疑惑,你說得好像都對,可我怎麼就是不願意相信。這不應該啊!

大家直覺的答案都是1/2。但其實你弄錯了問題。我只需要稍微改動幾個字,答案就是50%了。

你的老同學指著眼前的孩子告訴你,「他是我兒子」。再問你,你猜我家裡另一個孩子是男孩的概率是多少?毫無疑問答案是50%,因為面前的孩子和家裡的孩子毫無關係。

那麼這兩個問題差在哪裡了呢。就在於一開始問的題目,實際上是缺少信息量的。你只知道其中有一個,但你不知道是哪一個。在這樣的情況下,你需要考慮兩個孩子之間的順序問題。而當我明確告訴你面前的孩子是男孩時,他被確定了下來,不存在順序問題。

這個問題是不是有點毀三觀,大家可以慢慢消化一下。

3艾滋病檢測,陽性就是患病嗎?

其實這是概率論教材中的經典例題,理科生可能會很熟悉。我也就簡單的介紹一下。

目前,檢測HIV感染的方式是血清學HIV抗體檢測,根據數據,真正感染HIV的病人接受檢測後結果呈陽性的概率為99.8%,也就是說可以幾乎百分百判斷出艾滋病的感染。如果一個人不患病那麼接受檢測後結果呈陰性的概率為99%,也就是說健康人幾乎不會被誤診。這個檢測方法看起來還是很靠譜的。

小明是A國居民,A國的艾滋病感染率0.0825%,也就是平均一百萬個人才會有825個患者。有一天他進行檢測結果是陽性,你覺得他有多大可能真的得了艾滋病?

答案可能會出乎你的想像。

我們用貝葉斯公式計算在檢測結果呈陽性的條件下,患艾滋病的概率。答案僅有7.613%,也就是即便檢查結果為陽性,真正感染HIV的可能性僅有不到8%,但是我們的檢測方法明明看起來十分可靠?

實際上,問題出現在感染率上,檢驗出錯的可能性的確很小,但是相比於艾滋病的感染率,這種出錯的量級實際上就很大了。我們來舉例子看看。

假設有一百萬人,按照艾滋病的發病率,他們中實際上感染的人有825人。讓他們都接受檢測,因為健康人接受檢測後仍有1%的可能性結果呈陽性,即其中約9992名健康人被誤診而呈陽性。825名感染的病人經過檢測後,約823人結果為陽性(2人被誤診為陰性)。那麼我們來觀察所有結果是陽性的人群中,實際患有艾滋病的比例為823/(823+9992)約為7.6%。

一百萬人中,真陽性只有823人,但是假陽性有近1萬人,這就導致了即便結果是陽性,大多數情況是「誤診」。

這也就是為什麼在艾滋病例的篩查中,我們要採取多次檢測。同樣的數據下,如果某人檢測三次都顯示陽性,可以計算出他患病的概率高達99.878%,這也就是為什麼艾滋病毒檢查通常需要初篩試驗、複檢、最終確認試驗,並且已確認試驗的結果為最終結果。

4彭尼的遊戲

人們對概率的一個常發生的誤解,叫做賭徒謬誤。簡單地說就是我連續輸了一晚上了,雖然贏了的概率不高,但是連續輸的概率更低,那麼我接下來就該要贏了!

這種想法更多見於抽卡類手游中,比如某遊戲ssr的出貨率是1%,有人抽了100發沒有出,此時已經超過了期望次數,於是覺得之後一定會出,又大力氪金抽了100,然而還是無事發生。最後氣急敗壞地大罵官方作假。

其實稍微算一下就知道,連續200次不出的概率依然有13%。而且前100發生後完全不會影響到後面的概率。

如果某一時間點出了特別多的ssr,人們就會總結出「玄學」,呼籲大家都在這個時候抽卡。這也是一種誤解,我們習慣上認為雜亂無章才是真隨機,投硬幣連續出現正面一定有古怪。實際上,我們投七次硬幣,結果是「正正正正正正」和「正反反正反正正」的可能性是一樣的。如果你覺得不一樣,你可以再想想。

認為雜亂無章才是真隨機的人,是覺得小概率事件很難發生,沒錯,但很難發生並不是不會發生。有這麼一個論斷,如果給我無數的猴子,無限的時間,讓他們隨機地敲打鍵盤,形成一篇無限長的文章。那麼必定存在一段文字剛好是聖經的全文。

這個比喻雖然不具有現實意義,但它告訴了我們正是因為隨機,才會出現那些巧合。如果人為偽造數據,故意去掉那些看起來「不隨機」的情況,在樣本很大的情況下,這反而是反常的。

回到拋硬幣的話題,你現在應該理解了賭徒謬誤,知道了「正正正正正正」和「正反反正反正正」的可能性是一樣的。那我想和你玩一個遊戲,叫做彭尼的遊戲——連續的拋一個硬幣,

當出現「正反正」時你贏,出現「正正反」時我贏。任何一方贏了遊戲就停止。

你覺得這個遊戲公平嗎?事實上我取勝的概率是2/3。

你可能不服氣,那我把「正正反」讓給你,我選「反正正」,哈哈,這回我的勝率是3/4。

你選「反正正」,我就選「反反正」,勝率2/3。

你選「反反正」,我就選「正反反」,勝率3/4。總之,我總可以找到一種組合獲勝概率更高。這是為什麼呢?

我給出其中一種情況的計算,關鍵點在於這回不僅僅是要計算固定組合出現的可能性,還要考慮出現的先後順序。

5你的朋友都比你有人緣?

社會學家scott feld在1991年發表了一篇文章,題為「為什麼你的朋友們比你有更多的朋友」,其中他觀察到這樣一個現象。平均地說,幾乎所有的社交網路中,人們的朋友數目的均值要低於他們的朋友的朋友數目的均值。

這是作者給出的一個實際數據。我們用點來表示學生,用線連接兩點來表示兩個學生是朋友,就得到此圖。括弧外面的數字表示該學生的朋友數(也就是從這一個點發出的線的數目),括弧里的數字表示他朋友的朋友數目的平均數。

我們具體看一下,Betty的朋友只有一個,是Sue,而Sue有4個朋友。Sue比Betty人緣好。

Pam有三個朋友,Sue,Alice,Carol。Sue有4個朋友,Alice有4個,Carol有2個,他們三人平均有3.33個朋友,比Pam要多。

全都計算一遍我們發現,8人組成的網路中只有Sue和Alice兩個人的朋友數超過了他的朋友們的朋友數的平均值。

事實上,對於大多數人來說,他(她)的大多數朋友要比他(她)有更多的朋友。

回到scott feld的結論,他想說的是,在社交網路中,每個人朋友數的平均值,不會超過,他的朋友們的朋友數總和的平均值。

例子中,8個女孩總共有20個朋友,平均每人2.5個朋友。她的朋友們的朋友數總和為60人,除以她的朋友數總和20人,平均為3個朋友。

首先給出一個數學上的證明,其實要完整證明友誼悖論還是十分複雜的,有興趣的朋友可以自行閱讀quora.com/Is-the-friend

我這裡只是簡單給出2.5<3的證明。

可能有人不太喜歡這樣的證明,其實還可以從概率角度來思考一下,我們現在嘗試用之前講到的條件概率粗略地說明為什麼我們的朋友可能比我們更善於交友。假設小明交朋友的能力在人群中處於中游——大約有50%的人比他更善於交朋友,另外50%的人交友能力比他差。小華是小明的朋友。那麼,小華的交友能力更可能比小明強還是弱呢?

我們依舊用平行世界的方法來思考。假設有許多平行世界的小明和小華,由於小明的交友水平處於中流,那麼就有一半的世界裡,小華強於小明,另一半的世界裡,小華弱於小明。在所有的世界裡,又分為,小華和小明成為朋友的情況與小華和小明沒有成為朋友的情況。

由於小明的交友能力是固定的,因此兩人是否交友取決於小華的交友能力。小華交友能力越強,兩人成為朋友的可能越大。

由於,前一半世界中,小華強於小明,也強於後一半世界中的小華。

因此,前一半世界中,兩人交友的世界數x要大於後一半世界中兩人交友的世界數y。

我們已知兩人交友了,計算小華交友能力強於小明的概率是x/(x+y)

這個數字大於50%,也即是說,有更多的可能性小華的交友能力強於小明,因此他的朋友更可能比小明多。

這並非友情悖論的嚴格證明,但有助於理解這個問題。

友情悖論有什麼應用呢。

科學家們曾經在哈佛大學的學生中做過一個實驗:隨機選擇一群人,他們各自隨機選擇的朋友構成第二群人。根據友情悖論,第二群人的朋友要比第一群人多,所以在流行病爆發的時候他們應該更容易或更早被感染。實驗也確實發現,第二群人比第一群人中檢測到流行病爆發的確早大約兩周時間。這對於流行病預防和免疫研究具有重大意義。

好了,我想要介紹的問題就是以上了,我相信很多人依舊存在許多困惑,這非常正常,數學並不是一門好學的學問。

我的分享想要表達的就是,很多我們第一反應想到的東西,其實很不準確。要想看透這個世界的真實,需要有紮實的功底,仔細的琢磨思考

——本期分享到此結束啦——

聲明:嘉賓分享內容為個人觀點,不代表木果書架立場,僅供參考。如有疑問,煩請大家自行查證,也歡迎加入木果讀書會,一起交流探討。

未經授權,嚴謹轉載!如需轉載,請在後台留言聯繫小編。


推薦閱讀:

概率論如何實現抽象
論風險:概率論還是決定論
語料庫語言學基礎知識:概率論2(連續變數、聯合分布)
優化問題
各種空間

TAG:概率論 | 讀書會 |