危機:21篇頂刊社會科學論文僅有13篇可以復現

危機:21篇頂刊社會科學論文僅有13篇可以復現

來自專欄複雜性科學8 人贊了文章

導語

在發表於Nature Human Behaviour一項最新研究中,研究者試圖復現在頂級期刊上發表的21項社會科學實驗,但僅僅復現了其中的13項。這引發了新一輪的可復現性危機,大量人員開始討論:什麼樣研究結果是可靠的?如何提高研究的可重複性?

1.復現危機:頂級期刊上的社會科學研究難以復現

可重複性是實證科學的基石,對社會科學而言,這塊基石現在出現了鬆動。

8月27日,Nature子刊 Nature Human Behaviour 發表了一篇論文,一個由40多位研究者組成的團隊(The Social Sciences Replication Project),在社會科學界放出了一枚炸彈——他們重複實驗了2010年到2015發表在Nature和Science上的21項社會科學研究,發現其中8項實驗結論無法復現。這意味著,這些研究結論的準確性大打折扣。

論文題目:Evaluating the replicability of social science experiments in Nature and Sciencebetween 2010 and 2015

論文地址:nature.com/articles/s41

在復現這21項研究時,科學家使用的實驗者人數達到了原始實驗的5倍。但是在21項研究中,仍然有8項研究的結果無法重現。而在結果可以重現的13項研究中,實驗結論的平均效力只能達到原始論文的75%。

這項研究中,發表在Nature上的4項研究有3個無法復現,發表在Science上的17個研究有10個無法復現。該研究的負責人之一Michael Kirchler表示:即使是頂級期刊,也應該要求發表的文章具有很強的可重複性,其實這些實驗在出版前做一次復現並不很難。

在未能復現的8個研究,有一些非常有創新性,甚至有很大的社會影響。比如2011年發表在Science上的一項研究,聲稱數字搜索引擎改變了人們記憶信息的方式:對於那些很容易在網路上搜索到的信息,人們反很難去記住。這個結論曾經被廣泛報道,媒體鼓吹說搜索引擎可以為我們的認知卸載,就是所謂的「谷歌效應」。但在復現實驗中,研究者沒有發現類似的效應。

研究人員認為,這些已發表的研究結論存在系統性的偏差。

2.實驗結果:這些研究結論近40%都無法復現

在初步的研究中(圖a),研究者發現重複試驗結論中有12個在方向性上與原始研究一致。 在進一步的研究中(圖b),研究者增加了統計效力的指標,21個實驗中有13個的實驗效果與原始實驗顯著一致,即沒有出現與原研究相反的結論。

這張圖是復現效果被歸一化後的結果,如果復現效果是1,則說明復現實驗的效應與原始實驗完全一致。其中標準化相關係數為r,置信區間為95%,即P值小於0.05時認為結果是顯著的。

而在結合原始研究和復現研究效應大小的薈萃分析(mate analysis,對研究結果的再統計,檢測其統計顯著性水平、測定其效果量)中,21項研究中有16項在元分析中與原始研究在方向性上有顯著一致性,見圖c。當然,薈萃分析假定了這些原始研究結果沒有受到期刊發表等引起的偏差,所以是過於樂觀的結果。

在這一期的Nature Human Behaviour中,另外有8篇相關的研究文章,分別介紹了這些重複試驗的操作做法,並分析了沒有復現成功的可能原因。 研究者認為,復現實驗證明了原始實驗中的許多結果是假陽性(False Positive)的。假陽性結果也會表現出較高的統計顯著性,但並非真實情況。

為什麼許多假陽性的實驗結果也被匆匆採納發表?該項目的研究者認為這些研究結論存在系統性的偏差,比如數據誤報,比如高估真陽性的概率。

而更深層次的原因是科研人員在論文發表方面,有巨大的競爭壓力。科研人員不僅要考慮如何在更嚴格的實驗驗證提高論文可復現性,還要論文的獨創性。

但是假陽性的研究結論,會對學界的後續研究形成持續的負面影響,這種影響甚至會波及到政策、民生上。由此引發了對社會科學研究可靠性的新一輪質疑,這是又一次的可重複性危機。

3.可重複性的問題其實由來已久

可重複性危機(Repoducibility Crisis)不是第一次出現了,這是讓學界頭疼的老大難問題。

Nature雜誌曾經針對1576名科研人員做過一項調查,90%以上的受訪者表示科學界存在可重複性危機,而且一半以上認為可重複性危機已經到了嚴重地步。其中70%的研究人員曾經試圖重現其他科學家的研究卻以失敗告終。更難過的是,有過半的研究者,連自己曾經做過的實驗也無法復現。

2015年,在一項被稱為RPP( The Reproducibility Project: Psychology )的研究中,研究者對頂級心理學期刊在2008年發表的100個心理學實驗做了大規模的可重複性研究,發現其中僅有39個實驗被成功復現,61個都無法重現。這給心理學研究者乃至社會科學研究者敲了一記警鐘。

2016年,在另一項旨在研究經濟學可復現性的項目EERP(the Experimental Economics Replication Project)中,研究者嘗試復現18個經濟學實驗,其中只有11個實驗達到了與原始實驗相同方向的結論。

心理學和經濟學領域內的這兩項大規模復現研究,雖然具有相當高的統計效力,但在方法和標準上仍有爭議,首先是實驗規模可能不夠大,樣本偏差可能影響到了實驗結果,而且這兩項復現研究的檢驗方法主要是零假設檢驗(比較p值)。考慮到這些,在 Nature Buman Behaviour 的這項研究中,實驗人員用了比原始實驗更大規模的實驗對象,試圖消除一定的系統偏誤。

4.可靠性不夠,P值來湊?

「統計顯著性」是衡量一個研究結果可靠性的重要指標,它常常決定了研究結果是否能發表在科學期刊。統計顯著性的測量指標是P值。在零假設檢驗中,如果P值小於0.05,往往就說明該研究結果是統計顯著的。

比如在測試一種新葯是否起作用時,可以把患有該疾病的被試分為兩組,一組服用藥物藥物,另一組服用安慰劑藥丸,看一段時間之後被試人員的癥狀。

如果服藥組人員的癥狀比安慰劑組人員的癥狀更好,則可能以為這藥物是有用的。這正是研究者試圖證明的實驗假設——備擇假設。但是為了避免測試結果中一些偏差(比如誤診、藥物相互作用)對實驗結論的影響,研究者會做一個「零假設(null hypothesis)」——假設服藥物人員與安慰劑組人員癥狀變化相同。與零假設對立的備擇假設(H1),則是服藥物人員與安慰劑組人員癥狀變化明顯不同。

如果實驗表明服藥組合安慰機組癥狀變化確實顯著不同,那麼零假設就被證偽了。

P值描述的是在零假設條件下,現有實驗結果發生概率。在重複實驗中,如果P值很小,那麼得到這個相同結果的次數就很少,這就證明了這個假設的可能性是很小的,進而說明這個實驗數據的隨機性引偏差的可能性很小。

但這隻意味著結果具有統計意義,而且是顯示相關性而非因果關係。也沒有說明實驗結論的效應大小,即藥物功效如何。被證偽的零假設不能能說明藥物改善癥狀的機制,也不能說明這個實驗設計得是否良好、控制得到,或者結果是否被人為調控。

另一方面,研究者永遠無法完全排除零假設為真的可能性,所以他們用P值小於0.05作為門檻。P值小於0.05就意味著這是可以排除的小概率事件。

5.「萬惡的P值」,是縮小到0.005還是徹底放棄

拜託讓我的P值再小一點 | by Martin Rezny

20世紀20年代,統計學家費希爾(Rondld Fisher)首次使用P值,本意是用來來判斷數據是否值得更深入是研究。其思路是先進行一項實驗,觀察結果是否隨機,然後提出一個想要推翻的零假設。P值越小,研究人員成功證明這個假設不成立的可能性就越大。但在後來者的研究中,出現了許多對P值的誤用,逐漸形成了「P值小於0.05,統計結果即可視為顯著」的規則。

有一個提高實驗嚴謹性的方案是,把實驗結果具有統計顯著性的標準,從P<0.05提高到P<0.005。2013年發表在PNAS的一篇論文,統計學家Johnson 研究了「0.05的P值意味著零假設為真的概率是5%」的這個假設,發現實際上,當P=0.05時,零假設為真的概率可達到25%-30%之高。這在統計上,完全不是小概率事件了。Johnson提出了一個觀點,是把p小於0.05的結果稱為「有啟發性」的,而達到更為嚴格的0.005的結果,才能被稱為「統計顯著的」。

這樣提高統計顯著性的標準,會迫使研究人員採用更嚴謹的實驗方法,但是,這意味著想發表「統計顯著」的實驗結果會變得非常困難。這往往意味著實驗人數的倍增,對於經費和人力有限的研究機構來說,這很困難。

出於對科研結果的負責,一些科學家開始考慮新的解決方案,使用其他的統計學工具,比如貝葉斯檢驗。

6.貝葉斯因子檢驗:可能是更好的假設檢驗方法

如何從隨機事件中區分出真正的效應是一個古老的話題,統計學家為此討論了數個世紀。P值檢驗的問題在於它沒有抓住真正的問題:我們真正需要知道的並非是在效應不存在時觀測到現象的概率,而是在觀測到現象時效應存在的概率。

貝葉斯因子分析是一種替代的方案。貝葉斯概率是後驗概率,即在事件發生之後求的反向條件概率。對於任意一個模型假設H,可以根據一次實驗收集到的數據(Data)來檢測某個理論為真的可能性,並用貝葉斯公式來表示。

貝葉斯公式表示的意義是,如果我們要計算在當前實驗數據發生的條件下模型假設H為真的概率,就等於在模型假設H正確的條件下出現當前實驗數據data的概率,與模型H為真的概率的乘積,再除以實驗數據data發生的概率。

以零假設(理論模型H0)為例,它的貝葉斯公式表示數據更新之後,理論模型H0正確的概率,即後驗概率:

所謂貝葉斯因子假設檢驗,就是根據觀測數據,同時對零假設(理論模型H0)和備擇假設(理論模型H1)的可信度進行分析。我們可以根據數據得到零假設H0和備擇假設H1的後驗概率,用除法比它們的大小:

其中貝葉斯因子為:

BF10代表模型假設H1與模型假設H0對比的貝葉斯因子。如果BF10=30,表示在備擇假設H1為真的條件下出現當前數據的可能性,是零假設H0條件下出現當前數據的可能性的30倍。

貝葉斯因子代表的是當前數據對於一個模型的支持程度與對另一個模型支持程度的比例。區別於P值分析計算的是統計顯著性,貝葉斯因子描述的是數據對假設的支持程度。

在8月27日的這篇Nature Human Behaviour論文中,除了使用零假設檢驗的方法(p<0.05),也採用了貝葉斯因子分析的方法來判斷結果的顯著性:

默認貝葉斯因子為1,低於1表示實驗結果對零假設H0有利,高於1表示實驗結果對備擇假設H1有利。貝葉斯因子大於10,則說明實驗結果對於備擇假設H1有較強的證據支持。

這21項研究的復現中,有9項實驗結果對原始研究的假設有較強支持,有4項實驗結果對原始研究的假設有中等程度的支持,但也有8項實驗結果與原始研究背道而馳,甚至其中4項實驗結果對原始研究相反的模型有強烈支持。

在使用更可靠的貝葉斯因子分析之後,仍然有8篇文章的復現結果很糟糕,對這些文章是很不利的。頂級期刊的文章尚且如此,難免讓人對社會科學論文的可靠性產生疑慮。

7.難以復現的實驗就是錯誤和無用的嗎?

科學界再度曝出可復現性危機,對此Science雜誌的名譽副主編BarBara Basny表示,未能復現的論文並不意味這原始實驗是錯誤的。因為規則(protocol)存在差異,研究樣本也存在差異。Science是服務於跨學科讀者的,刊載文章的判斷標準並不僅僅是技術能力,會在不同領域尋找有突破進展的研究。沒有復現是很遺憾,但這就是科學運行的方式:它在往前發展,人們做了更多研究。不是每一篇論文在出版時都很完美。

Nature 雜誌則發表了聲明稱,它一直在與科學界合作,提高可重複性的標準。2013年以來,該期刊要求論文作者提交一份清單,以確保他們對實驗設計和分析都有所解釋。如何提高可重複性呢?Nature認為,期刊、實驗室、研究機構和經費資助者都可以發揮作用。

「科研已經如此艱難」,還要承擔隨時被推翻的風險。提高結果可靠性是一個難題,提升P值標準,或者用其他統計方法替代,或者是大幅增加樣本數量,似乎都難以解決所有的問題。

這真的是危機嗎?或者只是科學界的常態?還是一次偶然事件?歡迎在留言區交流你的看法。

參考資料

  • 發表在 Nature Human Behaviour 的論文:nature.com/articles/s41
  • Nature Human Behaviour 對該研究的評論nature.com/articles/s41
  • Science 對該研究的評論:sciencemag.org/news/201
  • 華盛頓郵報的報道:washingtonpost.com/news
  • 2017年Nature質疑P值可靠性的文章:naturenature.com/news/big-nam
  • 貝葉斯因子及其在JASP中的實現:chinaxiv.org/abs/201709

推薦閱讀

在科學、運動和音樂領域,成功有跡可循嗎?

詞嵌入如何捕捉文化社會學的微妙關係

Nature人類行為: 群體間的弱紐帶如何促進合作

Nature :創作高峰期,就該趁熱打鐵


集智俱樂部QQ群|292641157

商務合作及投稿轉載|swarma@swarma.org

◆ ◆ ◆

搜索公眾號:集智俱樂部

加入「沒有圍牆的研究所」

推薦閱讀:

●需要發表論文的都有哪些人?(※關注我不迷路)
寫了很久的SCI才總結出這些方法
預印:提前出版研究發表有負面影響嗎?
飯後茶餘論文風
如何寫出一流論文?Nature請6位專家為你支招

TAG:社會科學 | 學術論文 | 論文 |