統計因果

統計因果

二零零八年七月九日;十一日修訂
特別鳴謝傭懶的人的意見。

Quote:
凡模型皆錯,然有些有用
- George Box

  在那細雨朦朧煙霧瀰漫的夜裡,你深愛的情人跟你說他想跟你分手。雖然天沒閃電,但你心如雷劈。你不服。你追問他。他說:「我今天的離去是為了你的將來。」你可甘心?他說:「你是好人但我不可跟你在一起。」你可甘心?他說:「我們前世是冤家所以今世多爭吵。」你可甘心?日常生活常遇到因果,有些看似想當然,有些看似無關聯。本文提倡的統計因果是解釋世界的可靠有用工具。統計因果,即運用統計方法研究事件的關係,透過統計分析關係的強弱,我們可以清楚知道可靠程度。下文先述世間含糊的因果理論,再探討現代科學所依賴的因果:統計因果。簡述統計因果的三個條件後,較詳細地討論關係,接著的議題為因果模型。

  宗教、算命或風水命理的因果往往不明顯、虛無縹緲。例如,基督教認為人有原罪。為何?因為亞當和夏娃吃了禁果。試想,假如我說,恐龍絕種是由於我今天吃了叉鵝飯,又如,我今天吃了酸辣湯麵所以世界會有末日,富理性思維的人會相信嗎?基督徒辯稱,《聖經》是神聖的所以內容皆為直理。但何為神聖?其實神聖一詞甚空泛。所謂空泛,即使用範圍沒有任何界限,當某宗教詞窮時便會以一些空泛的詞匯「解釋」,實為蒙蔽[1]。有宗教訓言「今天的因是明天的果」,似有句意闕如之嫌。要知道,意思清楚明確的詞,都可堆砌成沒意義的句子。你知道「今天的因子是明天的蘋果」是什麼意思嗎?你知道「如果花草所以無花果」是什麼意思嗎?追問之下,那宗教或會解說「你今世做了壞事來世會有報應」。但他們仍然沒有解釋「今世做了壞事」跟「來世有報應」有什麼直接明顯的關聯。張海澎[2]曾舉一例如下,算命先生說在你在某年某月某日生,星系處於某位置,所以影響你的命運,這其實是轉移問題,為何星系位置會影響你的命運呢?算命先生只在牽強附會。Paul Kurtz 在評議超心理學是否科學時道:「談論科學時我們探究近似律法的陳述:即,若甲,則乙;每當甲在場,乙很可能發生。看看超心理學的發現,我們連乙會否發生也不能確定[3]。」偽科學的因果往往含糊或顛倒。

  現代科學理論的因果關係有別於上段所述的。艾耶爾以為我們相信當代科學的方法皆因其在實踐上的成功[4]。現代科學所揭示的因果,遠比宗教、算命或風水命理可靠。所謂可靠,並不等於必然。David Kenny 談論相關和因果時表明,沒有必然,只有或然;科學家不應該說「真」和「証明」,但要常常記住這些詞[5]。Kenny 之言針對科學,包括自然科學和社會科學,我看數學和邏輯應作別論。因果和概率的關係,維根斯坦說得簡潔:「若甲遵循自乙,命題乙給予命題甲的概率為一。邏輯結論的必然是概率的限制事例[6]。」而不可能的事件概率為零。﹝留意反之不心然,概率為零不能推出不可能[7]。﹞而一與零之間,就是理性信念程度。概率數值越接近一信念越強,越接近零信念越弱。借艾耶爾的話,說某觀察削弱了命題的概率,不啻稱我們越來越不想將那命題作為認可假說並供日後參考[8]。﹝留意學界對概率解釋不一,如頻率派和貝葉斯派,然這些不在本文研討之列。﹞儘管科學理論不是必然,但很可靠。粗略而言,邏輯和純數學最可靠,應用數學和自然科學次之,社會科學緊隨,偽科學和非科學不大可靠。李天命[9]曾作更仔細的排名:
    最可靠:邏輯、數學
    非常可靠:物理學、化學
    相當可靠:生物學、醫學
    不大可靠或大不可靠或未達相當可靠程度:心理學、經濟學、管理學、社會學、教育學、所謂的「文化研究」

  現在看看科學論述的因果關係。Kenny [10]稱科學家普遍接受三個條件:
    一、時間先後
    二、關係
    三、非偽造性

  先談第一點,假如甲引致乙,那甲在時間上要先於乙發生。「由於人類將會受到大審判,所以我們現在怎樣怎樣」之類的言論就不符合這點。第二,假如甲引致乙,甲和乙要存有關係。測試甲和乙有沒有關係,可以用一些統計測試。透過統計測試,我們可以知道關係有多大,這是確實客觀的數據。信神者稱,神是善的由於牠引致善物[11]。神和善物有何關係?信神者沒有表明。而科學理論涉及的關係,是要有統計測試支持的。第三,假如要說甲引致乙,那就不能存在一個可引致甲和乙的第三者丙,以致這個丙一旦受控就會使甲和乙的關係消失[12]。

  簡述了科學因果的三個條件,我們詳細探討第二點:關係。統計學中,我們稱兩個沒有關係的事件為獨立﹝statistically independent﹞。假如我們知道兩者有關係,還可以用協方差﹝covariance﹞或相關係數﹝correlation﹞來表示關係的強弱。若兩事件獨立,協方差為零。﹝反之不心然。﹞這些數值有助我們了解事件的關係,即甲和乙有沒有關係、關係有多大,但不能顯示因果﹝是甲引致乙還是乙引致甲 ﹞。關連性﹝statistical association﹞可能有助解釋因果。Mark Woodward [13]舉了一個簡單例子:當一群人參加了一個晚宴,當中一些人宴後患病。假若每位患病者都吃了同一種食物而病,所有沒吃那食物的人都安好無癢,那末該食物跟病明顯有關連性。然而,確立關連性只是確立因果的必要,而絕非充足條件[14]。假如有第三者丙,而丙影響甲和乙的關係,我們還有交絡﹝confounding﹞和相互作用﹝interaction﹞等等的課題討論,看官有興趣可參看 Woodward 那本《流行病學──研究設計和資料分析》。

  數學模型是解釋世界的有用工具。統計模型透過分析收集所得的確實數據,從而作出推測。達爾文的表親高爾頓﹝Francis Galton﹞是迴歸分析的開山大師。他曾研究父母跟孩子高度的關係,發現個子高跟個子低的父母的孩子的高度,看似回復那群人的算術平均數。這是現代迴歸模型的先驅[15]。我們談因果,可看看因果模型﹝casual modelling﹞。Kenny [16]列舉三點解釋社會科學宜用因果模型。其一,多數研究員含蓄或直率地﹝implicitly or explicitly﹞建構模型,正式的發展方法可協助研究員。其二,因果模型有助發展、修改和伸展出自測量和堅固的理論。其三,因果模型予社會科學家較強的基礎準則從而解決社會問題。Kenny [17]亦列舉三個因果模型的限制。其一,研究和資料必要建基於堅牢的仔細觀察。其二,理論的中心概念或操縱主題通常不是因果法則,而是圖像、概念和結構。其三,因果模型容易引起濫用。欲深入研究者可看看 Kenny 那本《相關與因果》。

  通過統計分析,我們可以清楚知道推測結果有多可靠,如我們可以說九成五確信我們的推斷。宗教、算命或風水命理的推斷呢?我希望有一成可信。嚴謹的因果模型,宜以統計方法輔助。。

翻譯實難,自知拙譯甚劣,盡量附原文供讀者參考。

[1] 張海澎:《分析邏輯──理性思維的基石》﹝香港:青年書屋,2004 年 6 月初版﹞,頁 34。

[2] 同上書,頁 41。

[3] 原文為:We say in science that we search for conditional lawlike statements: namely, that if a, then b; whenever a is present, b will most likely occur. Yet in viewing the findings of parapsychology, the situation seems to be that we are not even certain that b occurs. 見 Paul Kurtz, Is Parapsychology a Science? in Kendrick Frazier (ed.) Paranormal Borderlands of Science. Buffalo, New York: Prometheus Books, 1981, p.13

[4] 原文為:We trust the methods of contemporary science because they have been successful in practice. 見 A.J. Ayer, Languages, Truth and Logic. London: Penguin Books, 2001, p.101.

[5] 原文為:There is no certainty, only a probability. 與 the scientist should never speak the words truth or proof but always keep in them in mind. 見 David A. Kenny, Correlation and Causality. (Revised ed.), 2004. http://davidakenny.net/doc/cc_v1.pdf, p.1-2.

[6] 原文為:If p follows from q, the proposition q gives to the proposition p the probability 1. The certainty of logical conclusion is a limiting case of probability. 轉引自 Karl Popper, The Logic of Scientific Discovery. London and New York: Routledge, 2002, p.136.

[7] 原文為:Probability Zero Does Not Mean Impossible. 見 Morris H. DeGroot and Mark J. Schervish, Probability and Statistics. (3rd international ed.) Addison-Wesley, 2002, p.17.

[8] 原文為:to say of an observation that it diminishes the probability of a proposition is to say that it decreases our willingness to included the proposition in the system of accepted hypotheses which serve us as guides to the future. 同注 4,p.100.

[9] 李天命:《哲道行者》﹝香港:明報出版社,2005 年 7 月 3 版﹞,頁 135。

[10] 原文為:Three commonly accepted conditions must hold for a scientist to clam that X casues Y: 1. time precedence 2. relationship 3. nonspuriousness. 同注 5,p.3.

[11] 原文為:God is good because he is the cause of things that are good. 見 Brain Davies, An Introduction to the Philosophy of Religion. Oxford and New York: Oxford University Press, 1993, p.21.

[12] 原文為:For a relationship between X and Y to be nonspurious, there must not be a Z that causes both X and Y such that the relationship between X and Y vanishes once Z is controlled. 同注 5,p.4-5.

[13] Mark Woodward, Epidemiology: Study Design and Data Analysis. Boca Ration, London, New York, Washington, D.C.: Chapman & Hall/CRC, 1999, p.14-15.

[14] 原文為:The establishment of an association is a necessary, but certainly not a sufficient, condition to establish casuation. 同注 13,p.17.

[15] Michael H. Kutner, Christopher J. Nachtsheim, John Neter and William Li, Applied Linear Statistical Models. (5th international ed.) McGrwa-Hill Higher Education, 2005, p.5.

[16] 同注 5,p.6.

[17] 同注 5,p.8-9.


回應瀏覽選項

選擇你喜歡的顯示回應的模式,並點選「儲存設定」,以啟用你所做的改變。
文章本身很詳實……

只是「統計因果」卻未必是個好標題啊。

比如你說
「統計因果,即運用統計方法研究事件的關係,透過統計分析關係的強弱,我們可以清楚知道可靠程度。」

按「運用統計方法研究事件的關係,透過統計分析關係的強弱,我們可以清楚知道可靠程度。」
的確是個統計學的一個分支,但稱此分支為「推論統計學」(inferential statistics) 似乎更洽當。

叫「統計因果」的不妥在於,
兩件事在統計上的「關係」就算如何可靠,也不代表當中存在因果的——
你也知道,一般人對統計最常見的誤解,就是誤以為統計上的correlated必定意味背後有因果關係;
而「統計因果」這字眼可能加深這個誤解......

看見「統計因果」一詞,我第一時間聯想到的意思是:
因果有很多種,其中有一種曰「統計上的因果」。

我知道統計學中確有學者提出statistical causality的字眼,
但正如你的文章所言,構成「因果」需三大元素:時間先後、關係、非偽造性;
又正如你的文章所言,統計學主要和其中的「關係」一環打交道。
即統計學關心的是「如果(if)...那麼(then)...」,下稱統計關係(correlation);
而因果關心的則是「因為(because)...所以(therefore)...」,下稱因果關係(causality)。
「統計關係」是「因果關係」的必要條件,但不是充份條件。

當然我要強調,從你的文章,你明顯是明白以上「統計關係」與「因果關係」的關係的;
我也深信,統計學者們在使用「統計因果」一詞時,他們也是明白兩者之別的
——你引用的其中一本書正是Correlation and Causality。

只是對我等外行人而言,「統計因果」一詞則容易引起誤會:
它彷彿說有某種因果關係,其中統計關係已是充份條件,
即有些因果是可以單靠統計去斷定的——
但這明顯不是你的文章的意思呀。

我個人的看法是,避免用「統計因果」(statistical causality)一詞,
寧可先取「推論統計學」(inferential statistics)一詞。
至於釐清統計在因果研究中的效用,
不訪先建立「機率因果(觀)」(probabilistic causality)的框架——
即你的文章中David Kenny 談及的那種「機率的因果觀」,
我認為這概念在文中可更早提出,因其堪稱是全文立論的基石:
正因為因果有其機率本質,引入統計方法研究因果才有其合理性。
先提出機率因果這樣一個哲學框架,那末統計的角色自不待言,
而相關討論(例如你的文章)的脈胳和價值也就更明確了。

所以你最後說
「嚴謹的學術,宜以統計因果輔助。」
我寧可說
「嚴謹的因果模型,宜以統計方法輔助。」

你的文章本身很詳實,
它絕對配得起一個更好的標題的!

一個翻譯上的建議

關於「三、非偽造性」一項,
你在其後一段的最後一句的解釋為
「第三,假如甲引致乙,不可有受控的第三者丙引致甲和乙而令甲和乙的關係消失[12]。」

據你提供的原文:
For a relationship between X and Y to be nonspurious, there must not be a Z that causes both X and Y such that the relationship between X and Y vanishes once Z is controlled.

我建議這樣解釋:
「第三,假如要說甲引致乙,那就不能存在一個可引致甲和乙的第三者丙,
以致這個丙一旦受控就會使甲和乙的關係消失[12]。」

傭懶的人

先謝謝你的意見。

我明白有 Correlation 則必然有 Causality 是常見的誤解,文中亦有提及,可能不夠詳細。

有關係你提議推論統計學作題:設立模型,一方面分析資料﹝data analysis﹞,一方面作推斷﹝inference﹞。我以為兩者同樣重要。分析資料,是從所集的資料去解釋事物。以推論作題,會否忽略了分析一環?

有關 probabilistic causality:我先前沒有深入看過,我似乎略了這點。多謝你的提點。

其實,有些概念用一些方程會方便解釋,但又怕方程會嚇怕人,而且一般讀者程度不一,有時解釋一條方程就要花大量筆默。

另,似乎不能編輯原文。

//另,似乎不能編輯原文。//

若是開題者, 在題的上端應有一小按鈕名 "編輯", nick 可試試.

我不懂統計學, 繼續拜讀兩位鴻文.

//NICK 週三, 07/09/2008 - 21:16//

(((((((((( 手手 ))))))))))))))

^______^

對, 宗教、算命或風水命理有很多混水摸魚的騙徒.

 //宗教、算命或風水命理的因果往往不明顯、虛無縹緲。//

對, 宗教、算命或風水命理有很多混水摸魚的騙徒.

若以整體論觀之, 現世各大宗教及源遠流長的風水命理仍是有其深刻的智慧的.

._.

thinker@思想者 寫到 :
若是開題者, 在題的上端應有一小按鈕名 "編輯", nick 可試試.

我以為在引開、Facebook、Google 等旁,原來在左上角,謝謝。

吳彥祖 寫到 :
我不懂統計學, 繼續拜讀兩位鴻文.

我已盡量淺白,為求不懂統計學者也讀懂。有什麼不明歡迎發問。

先謝 nick 兄賜教.

//我已盡量淺白,為求不懂統計學者也讀懂。有什麼不明歡迎發問。//

先謝 nick 兄賜教.

^_____^

是我多謝你才對

Nick 寫到 :
先謝謝你的意見。

我之前零零星星的看了一些,沒啥系統,
你的看法反有助我整合自己的思路。

所以是我多謝你才對。

Quote:

我明白有 Correlation 則必然有 Causality 是常見的誤解,文中亦有提及,可能不夠詳細。

其實文中夠詳細了……
我主要擔心「統計因果」一詞,如果「抽出來看字面」的話會有誤解啦……這不能說是文章的問題。

Quote:

有關係你提議推論統計學作題:設立模型,一方面分析資料﹝data analysis﹞,一方面作推斷﹝inference﹞。我以為兩者同樣重要。分析資料,是從所集的資料去解釋事物。
以推論作題,會否忽略了分析一環?

嗯……會啊。這也有道理。

Quote:

其實,有些概念用一些方程會方便解釋,但又怕方程會嚇怕人,而且一般讀者程度不一,有時解釋一條方程就要花大量筆默。

同感。看得出來你在這方面是下了不少苦功。

說到底……哈哈,
我只是拿著人家辛苦的成果指指點點一番而已,
這當然是很輕鬆的。
要自己寫一篇文章出來就辛苦多了——
我知道,因為我也寫過呀。

//但何為神聖?其實神

//但何為神聖?其實神聖一詞甚空泛。所謂空泛,即使用範圍沒有任何界限//

也並非全然沒有界限吧?

但何為神聖?/也並非全然沒有界限吧?/

願聞其詳. @.@

nick 兄

//那宗教或會解說「你今世做了壞事來世會有報應」。但他們仍然沒有解釋「今世做了壞事」跟「來世有報應」有什麼直接明顯的關聯。//

要解釋和印證這些宗教理論會否牽涉到終後經驗等的 "廣義經驗"?

發表新回應

此欄位內容將保密,不會公開顯示出來。
驗証碼
這個問題驗證您是否人類訪客,以防止這個網站被自動化程式貼入大量的垃圾資訊
圖片的 CAPTCHA