15個數據科學家最容易忽視的「坑」!

15個數據科學家最容易忽視的「坑」!

數據科學絕不是僅僅拿著數據套用模型就可以得出結論的,更重要的是對數據的敏感度,業務的理解。這其中存在著很多」陷阱「,總結了15個最容易忽視的低級錯誤,跟大家分享如下。

1、Cherry picking

采櫻桃謬誤

所謂采櫻桃謬誤,表意指的是只採摘自己喜歡的櫻桃。在數據科學任務中,指只挑選自己鐘意的結果,導致分析結果有失偏頗。

比如在arxiv上重現一篇論文的結果時,發現即使同樣的模型參數,結果和論文中的水平差別很大。這是為什麼?其實這就是因為這片論文中「采了櫻桃」,在論文中展示出來的都是「Good Example」,即是從千萬條結果中挑選出的最優結果。

另外一個著名的采櫻桃謬誤就是一個關於「糖跟脂肪,哪個對人類健康危害更大的研究」的研究。一開始這是一個20多個國家的跨國研究,但製糖業買通了科學家,最後變成只剩七個國家,因為他把不符合「脂肪是元兇」結論的國家統統都踢掉。拜這個研究所賜,我們身邊的很多人已經把脂肪認做是很多富貴病的原因,而忽略的真正的幕後兇手「糖」。

這其實會導致我們在數據分析中一個很嚴重的問題,即不是要用數據作推論,只是用數據來幫助他強化自己結論的正當性。

2、Cobra effect

眼鏡蛇效應

眼鏡蛇效應指的是:策略本身導致跟預期相反的結果。

眼鏡蛇效應這個名字是來源於印度時期的一個案例,那個時候印度有很多眼鏡蛇,政府為了減少這種毒蛇的數量,他們就懸賞眼鏡蛇的屍體。本意是用這種方式,鼓勵大家去消滅眼鏡蛇。然而,事與願違。為了獲得獎金,人們竟開始大量地去飼養眼鏡蛇。當政府意識到這個問題的時候,取消了賞金。於是養殖蛇的人只好將蛇放生,最後的結果是眼鏡蛇數量不降反升。

所以眼鏡蛇效應就是說,你就算用數據科學做了一個決策,但是當決策本身有問題時,反而會造成相反效果。

3、Sampling Error

抽樣誤差

(甲方大佬專屬錯誤)

抽樣誤差在這裡是指不具有代表性的樣本。這個是大部分的甲方爸爸會提出來的一個很嚴重的錯誤的謬論。

常常有保險公司提出這樣的需求,說手上有很多成交的保戶的資料,需要去判斷什麼樣的人會買保險。這件事情有什麼問題?這個樣本中沒有不買保險的人的信息。所有的差異是需要通過比較,所以只有同時有買保險和沒有買保險的人的信息時,才能通過數據去分析這些人的差異,從而得出什麼樣的人會買保險的結論。

所以當你的樣本不具有代表性的時候,你的分析結論的準確性就會被質疑。

4、Regression fallacy

回歸謬誤

回歸謬誤是指忽略了事物本身自帶的回歸效應。

我們知道銀行放款時,一般而言,年輕人借到的錢比較少,年長的人借到的錢多。我們用傳統的統計方法對數據進行分析,首先對兩批用戶分組(年輕人與年紀大的人),再求分組間的由於賴賬而損失金額的均值,我們會得到一個謬論:銀行因為不還錢而受到的損失,在客戶年齡上毫無差別。

為什麼會有這樣的謬論?因為損失金額這件事情是由兩部分構成的,一個是客戶違約的幾率(年輕人違約多但金額小),二是違約的金額(年紀大的人違約少金額大),這兩件事情剛好方向完全相反。所以從違約損失的金額總和上來看,表面上與年齡無關。根本原因就是沒有把問題的本質做最小拆解。

這種謬誤在做傳統的統計分析時經常出現,但在機器學習或者深度學習中很少遇見。因為後者模型足夠複雜,不容易會因為這樣的方式,陷入很簡單的推論錯誤。

5、Over-fitting

過擬合與反果為因

簡單來說由於數據量很少,模型相當於把答案給背下來,這就是我們所說的過擬合。關於過擬合的處理方式我們會在後面的課程中詳細的介紹。

永遠要記得當你得到一個很好的分析結果時,請不要高興的太早,因為你極有可能是過擬合了。

除了過擬合,還有一個可能會造成結果過於好的原因,就是放了不該放的變數。

之前在台灣看過一個大學教授做了一個有關於航空公司的客戶流失的建模分析。教授說他的模型準確率達到 95%以上。95% 聽上去很厲害,但仔細深究發現,它最重要的變數叫做「客戶多久沒有去搭過飛機」。有什麼奇怪之處?模型叫做「航空公司的流失模型」,最重要的變數叫做「客戶多久沒搭飛機」,這不是同一個概念嗎?也就是說他根本就反果為因了!他選了一個最完美的變數,因為這兩個本質上是一樣的。(其實我覺得更奇怪的點是為什麼還有 5% 的錯誤?)

對於反果為因問題的解決方式就是你要很小心地檢查變數,考慮時間順序,考慮有沒有哪一個變數根本就是反果為因。在以後的課程中將介紹如何設計一個可以解決商業問題的模型,這其中最重要的概念就是時間對於模型的影響,如何去規劃時間框架才不容易發生反果為因的情況。

6、Data fishing

數據捕撈

這個名字就比較抽象了,其實它指的是:先有假設再找證據,誤把巧合視為規律。

台灣有種彩票叫大樂透,很多人就會通過分析告訴你,某個數字出現的概率會是多少。但事實是在他們計算的這種規律裡面,即使有些數字出現概率有差異,那也只是巧合。這就是數據科學中另一個很大的難題,叫如何分辨巧合跟規則?

有時候很多人容易在沒有證據的情況下將巧合視為規則。大樂透預測就是這樣一個偽科學。因為它只是一個「剛好」,而剛好發生這件事情是不會一直「剛好」下去的,它缺乏一個所謂的決策上面的恆定性。

所以我們在做數據檢測時需要非常小心:不要陷入到這種遍曆數據找規律的過程中。不然真正的規律就會越走越遠,完全無法達到我們想要的一個結果。

7、False causality

虛假的因果關係

虛假的因果關係是指將兩個本質上無關的東西強行關聯在一起。

曾經有一家金融分析機構有一個統計分析,電視劇《花千骨》每集的收視率跟當時同期間的中國 A 股的股價的漲跌幅,相關係數約為 -87% ,即它貌似是一個完美的股價預測工具。看到這個之後,我一直在思考,電視劇播完了怎麼辦?

其實這個所謂的負相關就是一個巧合的同時性。那個時間段《花千骨》的收視率的確是一直越來越高,而中國剛好是面臨股災,股價是越來越低。但本質上兩者毫無關聯。

所以說虛假的因果關係(False causality)是很可怕的一件事情,因為這種巧合非常普遍,如何避免這種問題?這其實非常棘手,因為從數學邏輯來看它毫無破綻。改進的方法之一就是在做數據推論的時候,盡量少使用生命周期很短的東西。比如將《花千骨》換成《新聞聯播》可能會更有說服力一點。

8、Gambler fallacy

賭徒謬誤

賭徒謬論是什麼呢?就是賭徒就覺得如果前面都是猜大且贏了,那下一次一定猜小。

這種心理是很奇怪心態,事實上前面都是出大,下一次出小的幾率還是1/2。這是獨立事件,所有獨立事件代表當前事情發生的概率跟之前的事件無關。

在我職業生涯中,最怕一種客戶,他會習慣地說「我不要看報告,請你把 Row Data 找出來給我」。為什麼可怕?不是說我分析的報告有問題而怕他看。而是因為一旦他看 Row Data 就會很容易陷入到賭徒謬論的問題中。因為人是沒有耐心將 Row Data 看完的,所以他一般是看倆眼,如果他看倆眼都是大,那他可能就開始要猜小了。

所以為什麼需要機器來做學習?因為人是一個很怕煩的生物,沒有辦法看完全貌。而通過機器來告訴你全貌,能幫助你做更完整的判斷。

9、Simpsons paradox

數據顆粒度 辛普森悖論

辛普森悖論是指我們往往在看數據的時候,關注的數據顆粒度不同而導致結論不同。

表格中是男女性僱傭的比例,從表中可以看出,不管是「歷史」還是「地理」,女性被僱傭率都是比男性多了5%,即僱傭中沒有對女性的性別歧視。

但是如果把全部數字加起來,得到「TOTAL」這一欄,會發現女生比男生少了7.69%。為什麼結果是不一樣的?因為這個跟你做計算時的顆粒度組合有很大的關係。

其實孫子兵法裡面也有提到,大意是說你要怎麼取得你局部的優勢,有可能反敗為勝。看起來好像每一場都是輸的,但最終卻勝利了。

這個事情在統計學裡來講,是很有可能會發生的一個情況。記得永遠不要只看全貌或者是細節,必須兩個都得看!因為當你將不同的顆粒度進行組合之後,可能會發現完全相反的結果。

10、Publication Bias

蕭敬騰效應

(媒體報道偏執)

這個是說媒體只報道成功或者有趣的案例,失敗無趣的案例是不會被看到的。

為什麼蕭敬騰被稱為「雨神」?因為只有他去到某個地方下雨的時媒體才會報道,大部分沒下雨的時候,媒體是不會報道的。不只是媒體,其實在學術界,科技界或者其他界,大家都只願意報道或者看到有趣的東西。

我們會因為媒體報道效果的偏差,把巧合當成了規律,這就容易變成統計上的一個謬論。

11、Survivorship effect

倖存者效應

倖存者效應是指忽略了篩選條件,把經過篩選的結果當成隨機結果。

我曾經幫銀行做一個信用評分卡的風險管理模型,目的是預測哪些特徵的人會違約。拿到的客戶數據中,有違約和沒有違約的人,好像一切都很正確?但事實上這個模型是有問題的。因為真正最可能違約的人,都被淘汰了,銀行根本沒有給他們貸款的機會。這意味著違約的樣本都是小壞,最可能違約的樣本根本沒有收集到,這就是存在倖存者效應。

對於因為倖存者效應而拒絕掉的人,所造成的缺失的數據該怎麼辦?可以通過一個叫做拒絕推論的方式來完成,即要怎麼樣去推論出拒絕掉的人的情況。(在後面的課程中會詳細的講解介紹)

12、Gerrymandering

刻意透過調整閾值來獲得預期結論

這個主要是指通過調整閾值來操縱結論的手段。

以美國選舉制度為例,美國是每個州選舉贏了之後會取得所謂的選舉人票。所以這個總統他可能是最多選舉人票,但他不一定是最多票數。這就存在一個很大的trick,通過操縱選區的劃分,修改州的區域,可以使自己的利益最大化(選舉人票數最多)。

這映射在數據分析上其實就是調整閾值或者分組的過程。我們常會把一些類別變數去做一些分組,事實上只要透過適度的分組,完全可以操縱裡面的結論。我們要學習去避免的分組錯誤,也要謹防被這些錯誤所誤導。

13、Hawthorne effect

霍桑效應

我覺得很多人應該都聽說過這個霍桑效應,即當你被觀察的時候,你就不會表現出真正的結果。

前一陣子看到一個廣告研究的機構,通過一個儀器可以測腦波,可以測眼動。從而可以幫你分析出你在看電影的時候,什麼時候會有怎麼樣的情緒波動。但其實這是沒用的。為什麼?因為當他知道被觀測時他表現出來的就不是真實的情緒。

比如對「黃賭毒」的特別掃蕩,政策緊的那個月,指標就會完美。因為會很努力的去抓業績。但是用這個數據作分析,很抱歉,是沒用的,因為它是刻意做出來一個結構點,沒有辦法得到一個真正的結論。

這就是為什麼很多人都在談調研方法,因為大多數情況用問得到的數據是不準確的。

14、McNamara fallacy

麥納馬拉謬誤

麥納馬拉謬誤指的是刻意忽略無法被量化的部分。

我曾經連續兩年辦人工智慧大賽,其中一個主題是智能投顧。希望參賽者可以用機器視覺來看K線圖,得到股票漲跌的趨勢。因為據我了解大多數有經驗的交易者都是看圖來找趨勢。但是意外地是我們工作人員去詢問一些業界的人,得到答案都是圖沒有用,從來不看圖!

為什麼差異這麼大?後來才知道,我問的都是交易員,他們都憑經驗,所以會看這些圖。但是工作人員問的都是做量化的人,量化基本上是將一些統計結果和一些個人經驗寫成一些規則,然後去驗證那些規則。為什麼他們不看圖?很簡單,因為量化交易的人通常沒有處理機器視覺的的經驗或能力,所以他們就自動的把這個東西給忽視了。

這個世界很複雜,你不能夠漏掉任何一大塊其實很重要的東西,僅僅是因為你目前暫時沒有分析工具去處理它,這會造成一個很大的謬論。

15、Anchoring effect

錨定效應

最後一個錨定效應,一般是指我們的決策會受到他人或者第一信息的制約。

比如,投共享單車,大部分人的心理就是那麼多厲害的人都說這個賺錢,所以就跟投,認為肯定會賺錢的。那這種情況在某種意義上就屬於錨點效應。我們很容易因為其他人的情況影響自己的判斷。

所以我建議各位都要有一個獨立思考的能力。如果你覺得未來可以做一個比他更優秀的數據科學的專家,那你就應該能看到別人看不到的點。你不需要非得與別人提出一樣的結論,只要你說的過程有條理有邏輯,而且沒有任何的謬誤,並且是在正確的樣本上用適當的演算法,我相信就可以找到一個解決問題的很重要的一個方向。

結束語

這總結的15種數據推斷的低級錯誤,希望在未來會給大家的數據分析提供一些幫助。「數據科學」不是一個嘴上說說的名詞,但是它能否發揮它的影響力,取決於在做數據科學的人的認知。希望大家都能有一個正確的認知,數據科學是一個解決問題的科學,而不是一個製造問題的科學。

本文整理自尹相志老師的線上公開講座《數據無所不在》下半部分,更多乾貨內容,請觀看視頻回放。視頻配有字幕。

掃碼免費觀看直播回放,總長120分鐘

campus.swarma.org/gcou= (二維碼自動識別)

數據科學心法與機器學習實戰 第一講:數據無所不在

數據科學家,21世紀最性感的職業!


關注集智AI學園公眾號

獲取更多更有趣的AI教程吧!

搜索微信公眾號:swarmAI

集智AI學園QQ群:426390994

學園網站:campus.swarma.org


推薦閱讀:

LDA模型的前世今生
身為數據科學家怎麼能不掌握這四大技能!
SIMCA14.1操作教程—回歸分析案例
潑冷水:為什麼如此多的數據科學家正在拋棄他們的工作?
粗略學習Metro Map to Data Scientist(數據科學家之路)

TAG:機器學習 | 數據分析 | 數據科學家 |