4480
需用時?08:57
26
33
統計學里“P”的故事:蚊子、皇帝的新衣和不育的風流才子

(文/Regina Nuzzo)衡量統計真實性的“黃金標準”——P值,并非眾多科學家想象的那樣可靠。

2010年某個瞬間,馬特·莫德爾(Matt Motyl)離享受科學榮譽僅有一步之遙。那時,他發現政治極端主義者看到的世界是確實是非黑即白的。

實驗結果“非常清楚”。莫德爾這樣回憶道。他是夏洛茨維爾市弗吉尼亞大學的心理學博士生。他所做的一項涉及近2000人的研究中的數據似乎表明,與左翼或右翼人士相比,政治中立派能更準確地辨別不同色度的灰色。他說:“實驗的假設很有趣,而且數據也能夠有力支持實驗假設。”用來衡量統計顯著性的常用指標是P值。該實驗中的P值為0.01,通常人們會認為這說明實驗結果“非常顯著”。莫德爾十分有把握能把自己的論文發表在高影響因子的刊物上。

但是,現實無情地粉碎了幻想。由于擔心實驗結果陷入再現性爭論,莫德爾和他的導師布萊恩?諾塞克(Brian Nosek)決定重復實驗。添加了新的數據之后,P值變成了0.59,這個數字遠未達到學界一般能接受的顯著性水平0.05。莫德爾觀察到的心理學效應沒有了,他年少成名的夢也被打碎了。

其實,不是莫德爾的數據或分析出了什么問題,而是P值這個指標出了問題。從本質上講,這個指標出人意料的不穩定,它并不是大多數科學家想象的那樣可靠和客觀。“P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。”伊利諾伊州芝加哥市羅斯福大學的經濟學家斯蒂芬?茲利亞克(Stephen Ziliak)這樣說,他經常批評統計學的應用方式。

出于對實驗可重復性的擔憂,P值的問題讓很多科學家特別發愁。2005年,加州斯坦福大學的流行病學家約翰?埃迪尼斯(John Ioanniadis)指出,大多數公開發表的科學發現都是有問題的。此后,一連串備受矚目的、有可重復性問題的研究迫使科學家重新思考該如何評估研究結果。

與此同時,統計學家也在尋找更好的分析數據的方法,以避免科學家錯失重要信息,或在假陽性結果上浪費精力。“當你的統計思想發生改變之后,突然,重要的東西也完全變了。”斯坦福大學物理學家、統計學家史蒂文·古德曼(Steven Goodman)說:“規則并不是天注定的,它是由我們所采用的統計方法決定的。”

對P值的誤用

人們一直都對P值批評不斷。90年前P值誕生以來,被比作過蚊子(因為這東西煩人又揮之不去)、皇帝的新衣(因為P值的方法中到處都是顯而易見卻被所有人無視的問題)以及“不育的風流才子”手中的工具——這位“才子”強搶了科學佳人,卻讓科學佳人后繼無人。一位研究人員表示,應該把“統計推論和假設檢驗”這個方法改個名字,叫做“統計假設和推論檢驗”(statistical hypothesis inference testing),大概因為這個名字的首字母縮寫更符合它的氣質。

諷刺之處在于,20世紀20年代,英國統計學家羅納德·費希爾(Ronald Fisher)首次采用P值方法時,并沒有打算把它作為決定性的檢驗方法。他本來只是用P值作為一種判斷數據在傳統意義上是否顯著的非正式方法,也就是說,用來判斷數據證據是否值得進行深入研究。P值方法的思路是先進行一項實驗,然后觀察實驗結果是否符合隨機結果的特征。研究人員首先提出一個他們想要推翻的“零假設”(null hypothesis),比如,兩組數據沒有相關性或兩組數據沒有顯著差別。接下來,他們會故意唱反調,假設零假設是成立的,然后計算實際觀察結果與零假設相吻合的概率。這個概率就是P值。費希爾說,P值越小,研究人員成功證明這個零假設不成立的可能性就越大。

將數據和背景知識相結合得出科學結論的過程是流動的、非數值化的。盡管P值的精確性顯而易見,費希爾還是希望它只是這個過程的一部分。但是,科學家很快就開始利用P值來保證循證決策的嚴謹與客觀。這一運動是20世紀20年代末,由費希爾的死對頭、波蘭數學家耶日·內曼(Jerzy Neyman)和英國統計學家埃貢·皮爾森(Egon Pearson)一手推動的。他們采用了一種新的數據分析框架,該框架中包括統計效力、假陽性、假陰性和很多其他如今在統計學概論課上耳熟能詳的概念。他倆直接無視了P值這個指標。

雙方爭執不斷,內曼批評費希爾的某些工作從數學上講比“毫無用處”還糟糕,而費希爾對內曼的方法給出的評價是“無比幼稚”、“在西方學界中簡直駭人聽聞”。但是,就在雙方爭執不下時,其他研究人員的耐心漸漸耗盡了。他們開始給進行研究的科學家們編寫統計學指南。但是其中很多作者并非統計學家,他們對兩種方法都缺乏透徹的理解。結果就是他們把費希爾粗略的P值計算法硬塞進了內曼和皮爾森二人建立的規則嚴密的統計系統中,創造出了一種混合的方法,然后就出現了像“P值為0.05,即可將統計結果視為顯著”這樣的規則。古德曼說:“統計學家從沒打算以現在的方式使用P值。”

“P值至上”帶來的惡果

這樣做的后果之一就是人們對P值的意義充滿困惑。我們回過頭來看一下莫德爾關于政治激進者的研究。大多數科學家看到實驗最初統計結果的P值為0.01,就會認為莫德爾的結論不成立的概率只有1%。但他們錯了。P值無法告訴研究人員這樣的信息。P值能做的,就是在特定的零假設條件下對數據特征進行總結分析。研究人員不能利用P值通過反向推導對事實作出判斷。要對事實作出判斷,還需要更多信息,也就是現實世界中該效應客觀存在的概率。忽視了這一點,就好像一個人清晨醒來覺得有點頭痛,然后就斷定自己得了某種罕見的腦瘤。這當然不是不可能,只是這事兒攤到你頭上的概率太小,所以你得先拿出更多證據推翻例如過敏反應這樣更為常見的原因。結論越是令人難以置信(比如心靈感應、外星人、順勢療法),這種驚人的發現是假陽性的可能性就越大,不管你的P值有多小。

這些都是比較難懂的概念,但是一些統計學家試圖用它們來解釋經驗法則的失靈(見下圖)。根據應用最廣泛的一種計算方法,如果假設為該現象存在,那么當P值為0.01時,該現象實際并不存在的概率至少為11%;而當P值為0.05時,這一概率則會上升到29%。因此,莫德爾的發現是假陽性的概率超過10%。同樣,結果可重復的概率也不是大多數人所想的99%,而是73%左右。而再得到一個極為顯著的結果的概率只有50%。換言之,莫德爾的實驗結果不可重復的概率高得驚人,就跟拋硬幣猜正面向上,而落下來是反面朝上的概率差不多。

圖中的三個例子證明,即使計算得出的P值非常小(具有統計顯著性),實驗結果也可能具有極高的不可重復率。圖片來源:Nature

批評者也感慨P值會讓研究人員思維混亂。最重要的一個例子是,P值容易使研究者錯誤的估計現象的真實影響。比如去年,一項覆蓋超過19000人的研究顯示,在網上結識的夫妻比在現實生活中結識的夫妻離婚的可能性更低(P<0.002),而獲得婚姻滿足感的可能性則更高(P<0.001)。(點擊這里看詳情)。這一現象也許挺讓人印象深刻,但這種現象其實非常不明顯。網上結識的夫婦離婚率為5.96%,而現實生活中結識的夫妻離婚率為7.67%,根據7分幸福感評分表測試中,網上結識的夫妻幸福感為5.64分,而現實生活中結石的夫妻幸福感為5.48分。澳大利亞墨爾本市拉籌伯大學的榮譽心理學家杰夫·卡明(Geoff Cumming)認為:“為了追求很小的P值而忽略背后更大的問題這一現象是“誘人的顯著性”的犧牲品。”但是,顯著性并不意味著實際中確實存在相關性。他說:“我們應該問的是,‘某種現象出現的概率有多大?’而不是‘有沒有某種現象?’”

大概,最糟糕的錯誤是某種自欺欺人的行為,賓夕法尼亞大學的心理學家尤里·西蒙遜(Uri Simonsohn)及其同事給這種行為起名為“P值操縱”(P-hacking)。這種行為也被稱為數據挖掘、數據窺探、數據釣魚、追逐顯著性或者雙重計算。西蒙遜解釋道:“P值操縱就是不斷地把數據量加倍,直到獲得自己想要的結果。”這種行為甚至是下意識的。這可能是在線城市詞典中收錄的第一個統計學詞條,該詞條的例句是:“這一發現似乎是通過P值操縱做出來的。作者去掉了其中一種條件下的數據,使總體的P值小于0.05。”或者“她是個P值操縱者,總是一邊收集數據一邊看數據好不好。”

這種行為的結果是,把本應帶著質疑眼光審視的探索性研究的結果變得看似確定無疑實際上卻難以重復。西蒙遜的計算機模擬實驗表明,只需改變研究中的若干數據分析方法,就能使假陽性的概率提高到60%。如今的研究都希望能從雜亂的數據中發現并不十分明顯的現象。在這種背景下,尤其容易出現P值操縱。盡管難以估計這種做法有多普遍,但西蒙遜認為這一問題應該已經很嚴重了。在一項分析研究中,他發現有跡象表明,很多公開發表的心理學論文中,P值都出人意料地分布在0.05左右——就像研究人員通過P值操縱不斷嘗試,直到得到理想的P值

解決之道

盡管對P值提出批評的大有人在,但統計方法的變革仍然進展緩慢。“費希爾、內曼和皮爾森提出他們的理論后,統計學的基本框架實質上沒有發生任何改變。”古德曼說。1982年,明尼阿波利斯市明尼蘇達大學心理學家約翰·坎貝爾(John Campell)曾經抱怨過這個問題,當時他還是《應用心理學雜志》的編輯。他說:“要把作者的注意力從P值上轉移走幾乎是不可能的,P值小數點后面的零越多,人們就越抓著P值不愿放手。”1989年,馬薩諸塞州波士頓大學的肯尼斯·羅斯曼(Kenneth Rothman)創辦了《流行病學》這本雜志,當時他盡力勸阻作者不要使用P值。但是在2001年他離開了雜志社后,這本雜志中又經常出現P值了。

埃尼迪斯最近正在PubMed數據庫中搜尋數據,用來研究不同領域的學者是如何使用P值和其他統計學證據的。“只需要粗略瀏覽幾篇最近發表的論文,你就會發現P值仍然是非常非常流行的方法。”

古德曼認為,這種根深蒂固的研究文化需要徹底的改革——人們必須改變統計學的教授方式、數據分析方式以及結果呈現和解釋的方式;而好在研究人員已經開始意識到自己的問題了。“已公開發表的眾多科學發現都不成立,這給人們敲了個警鐘。”埃尼迪斯等研究者的研究揭示了理論統計學的批評觀點與統計學應用上的難題之間的聯系。古德曼說:“統計學家預言會出現的問題正是我們當前遇到的問題,只是我們還沒有找到全部的解決辦法。”

統計學家提出了幾個或許可行的方法。比如卡明認為,為了避免掉進思考結果是否顯著這個陷阱,研究人員應該在文章中提供效應量和置信區間的相關數據。這些數據可以反映P值無法反映的信息,也就是效應的規模及其相對重要性。

很多統計學家還呼吁用基于貝葉斯法則的方法替代P值。這一法則誕生于18世紀,其思想是把概率視為某種結果的似然性而非出現的頻率。這其中蘊含了某種主觀因素,而這也是統計學前沿學者想極力避免的。但是,貝葉斯分析框架能夠使觀察者相對容易地將自己所知道的內容融入結論,以及計算出現新數據后概率如何變化。

其他人則贊成一種更普遍的方法,即鼓勵研究人員對同一套數據用多種方法進行分析。 盧森堡市公共衛生研究中心的統計學家史蒂芬·森(Stephen Senn)把這個方法比作沒法從墻角里繞出來的掃地機器人。任何數據分析方法最終都會有行不通的時候,這時就需要用常識將分析拖回正軌。他認為倘若用不同的方法得到了不同的結論,“就表明研究者應該繼續開動腦筋,努力找到原因”,而這能讓我們更好地理解背后的真相。

西蒙遜認為科學家為自己辯解最有利的武器就是承認一切。他鼓勵作者在論文中寫上這樣一段話:“論文中列出了研究中我們確定樣本大小的方法、所有舍棄的數據(如果有的話)以及研究中用到的所有操作和測量方法。”通過這種方式表明文章沒有進行“P值操縱”。他希望通過披露這些信息,能夠阻止P值操縱行為,或者至少能提醒讀者注意論文中的疑點,并自行做出判斷。

紐約市哥倫比亞大學政治學家、統計學家安德魯·格爾曼(Andrew Gelman)表示,目前另一個受到關注的類似方法是兩階段分析法,也叫做“先預定后重復法”(preregistered replication)。這種方法中,探索與驗證分析通過不同的方式進行,而且要在論文中清楚地標示出來。例如,研究人員首先做兩個探索性的小研究,用來發現可能比較有趣的現象,而又不需要太擔心假陽性結論;而不是一下做4個單獨的小研究,然后在同一篇論文中寫出所有的結果。然后,在上述研究結果的基礎上,作者再決定用什么方法來驗證他的發現,并在Open Science Framework這樣的數據庫中向公眾提前披露自己的研究意向。然后,他們再進行重復實驗,并將結果之前與探索性研究的結果一同發表。格爾曼表示這種方法使研究分析更加自由和靈活,同時也能使研究者保持嚴謹,并降低公開發表的假陽性結果的數量。

古德曼還表示,進一步來說,研究人員需要意識到傳統統計學方法的局限性。他們應該在研究中融入對假設似然性和研究局限性的科學判斷,而這些內容通常情況下會被放到討論部分——包括相同或類似實驗的結果、研究人員提出的可能的機制以及臨床認識等等。馬里蘭州巴爾的摩市約翰霍普金斯大學布隆伯格公共衛生學院的統計學家理查德·羅耶兒(Richard Royall)認為,科學家應該在實驗結束之后思考三個問題:“支持數據是什么?”、“我應該相信什么樣的數據?”以及“下一步應該怎么做?” 單一方法無法回答上述全部問題。古德曼說:“數字僅僅是科學討論的開始,而不是結束。”

編譯自:《自然》,Scientific method: Statistical errors
圖片來源:Nature

果殼網相關小組

我們都愛統計學

The End

發布于2014-02-27, 本文版權屬于果殼網(guokr.com),禁止轉載。如有需要,請聯系果殼

我的評論

JacquelineShawn

果殼譯者,生物科學專業

pic
    广东快乐十分走势图开奖 真钱彩金捕鱼游戏平台 美国棒球比分 直播教你股票赚钱 大家赢足球即时比分中 博发即时赔率 滴滴快车赚钱么在北京 欧洲即时赔率哪里查 赚钱qq群时时彩 庄园怎么赚钱 二分彩 比格披萨赚钱吗 江苏7位数 懒人赚钱术电子书下载 pc蛋蛋 不为赚钱杰克马 快乐双彩