當我們想瞭解2個變項之間的關聯程度和方向時,通常會進行相關分析,例如最常使用的皮爾森積差相關係數。但在行為和社會科學的領域裡,比較少只探討2個變項之間的關聯,而是會想瞭解2個以上變項之間的關聯,此時就須使用複相關係數。
複相關係數的原理沒有不同於一般的相關係數,但是計算已經不像2變項相關係數那樣地簡單,多會使用統計分析軟體來取得。為了說明上的方便,文章內容會用3個變項來簡單地解釋複相關係數的意義、計算方式和假設檢定的過程。
本篇文章內容建立在簡單線性迴歸的基礎上,若您不知道或不熟悉最小平方迴歸線相關的基礎內容,建議您先閱讀線性迴歸裡的文章,再參考簡單線性迴歸的假設檢定,將有助於下面內容的理解喔!
複相關係數的意義
行為和社會科學的研究很常使用皮爾森積差相關係數來探討2個變項之間的關聯強度和方向,即使是用在不同變項測量尺度的斯皮爾曼等級相關係數、點二系列相關係數或phi係數,也都是皮爾森積差相關係數的特例。關於不同的變項測量尺度和適用的相關係數,請參考測量尺度和相關係數的選擇。
實際的研究過程中很少只探討2個變項之間的關係,通常會是2個以上變項間的關係,而複相關係數(multiple correlation coefficient)就是用來瞭解數個變項之間關聯程度的一個量化數值。一般而言,複相關係數會出現在1個依變項和數個自變項的多元線性迴歸分析結果裡,用來評估整體線性迴歸模型和資料間的適合度,也可視為觀察值和利用迴歸線方程式計算出來的預測值之間的關聯程度,符號用大寫的R來表示。
簡單線性迴歸的分析結果也會有相關係數R,但因為簡單線性迴歸僅涉及1個依變項和1個自變項,所以相關係數R其實就是2變項的皮爾森積差相關係數。雖說是皮爾森積差相關係數,但這個R是從R平方開根號計算而來,所以永遠是正數,無法反映出2個變項的關聯方向。
但相較於複相關係數R,複相關係數的平方(R平方)更常被使用,因為R平方可用「有多少百分比的變異被解釋」的方法來說明全部自變項和依變項的關係。例如R為0.769,若把運算結果四捨五入到小數點後第3位,則R平方為,這數值表示全部的自變項可以解釋依變項裡59.1%的變異。
若有1個依變項和2個自變項、,而3個變項間的關係用下面的文氏圖(Venn diagram)來呈現,則依變項和2個自變項的R平方就是下圖中的A+B+C。換句話說,自變項和整體可以說明依變項裡A+B+C的變異。
簡單來說,複相關係數就是數個變項間關聯程度的一個量化數值,符號為R,一般會在多元線性迴歸的分析結果裡看到這個數值,用來評估整體迴歸模型和資料間的適合度。然而,為了讓分析結果更容易理解,通常會使用R平方而不是R來做解釋。
複相關係數的計算
複相關係數的計算已經不像2個變項間的相關係數那樣地簡單,尤其是牽涉到1個依變項和好幾個自變項的時候,紙筆計算已經不太可能,通常會利用統計分析軟體來取得這個數值。為了方便概念上的理解,這裡用3個變項來說明複相關係數的計算方法。
假設依變項為,自變項為和,指和的相關係數,指和的相關係數,指和的相關係數,3個變項的複相關係數R公式如下:
(1)
從上面的公式(1)可以發現3個變項的複相關係數不是單純地把和以及和的相關係數相加而已,由於有2個自變項可以共同解釋的部分(上面文氏圖裡的C),所以要考量2個自變項的相關係數並做適當的校正。
若要計算R平方,單純地把利用公式(1)計算得到的數值平方或把公式(1)的根號拿掉就可以。不過R平方並非是一個沒有偏誤的母群體估計值,而這個偏誤會受到樣本總數和自變項個數的影響,因此若要得到相對無偏誤的母群體R平方估計值,R平方須做如下的調整:
(2)
利用上面公式(2)計算得到的數值稱為調整後R平方(adjusted R square),也會出現在迴歸分析的輸出結果裡,而把調整後R平方開根號就會得到調整後相關係數。雖然調整後R平方和調整後相關係數都是相對無偏誤的母群體估計值,但大多數的研究報告仍較常使用未調整前的數值。
複相關係數的假設檢定
複相關係數的假設檢定為簡單線性迴歸裡相關係數假設檢定的延伸,牽涉到的變項從單一依變項和單一自變項變成單一依變項和多個自變項,而研究問題從自變項和依變項間是否有顯著的關聯變成全部的自變項是否對依變項的預測有幫助。此外,複相關係數的假設檢定也是在探討整體的多元線性迴歸模型和資料間的適合度,若達到統計上顯著,再進一步分析各個自變項和依變項之間的關係。
複相關係數的假設檢定是在檢驗依變項和多個自變項間的關係是否真實地存在於母群體裡,假設母群體複相關係數的符號為,研究假設沒有方向性,虛無假設()會主張自變項整體對依變項的預測沒有幫助,也就是。相反地,對立假設()主張自變項整體對依變項的預測有幫助,也就是。
研究假設擬定後,再依據研究的性質和目的,選擇合適的顯著水準(α水準),習慣上為0.05、0.01或更嚴苛的0.001。關於顯著水準的意義和在假設檢定過程中的角色,請參考顯著水準和決策規則。
由於複相關係數的平方(R平方)可以直接利用下面的公式計算出F檢定統計量(F值),而R平方的假設檢定原則上和複相關係數R的假設檢定是一樣的,所以這裡與其說是複相關係數R的假設檢定,不如說是R平方的假設檢定。
(3)
上面的公式(3)裡,為樣本總數,為自變項的個數,而且這公式帶有分子自由度為、分母自由度為的F分配型態。透過F分配臨界值表,查詢F臨界值,當F值等於或大於F臨界值的時候,即可拒絕虛無假設,接受對立假設;反之,保留虛無假設。
在瞭解了複相關係數的意義、計算和假設檢定的方法後,下面舉個例子來示範複相關係數的計算和假設檢定的過程。
複相關係數的例子
假設有一位大學的法學緒論教師認為學生的邏輯能力、智力和學期成績有關聯,而且邏輯能力和智力對於學期成績的預測有所幫助。她從修課的學生裡隨機抽取出10位,並給予他們邏輯能力和智力的標準化測驗。若邏輯能力(LOGIC)為第1個自變項,智力(IQ)為第2個自變項,學期成績(SCORE)為依變項,這10位學生的資料如下表。試問:
- 這3個變項的複相關係數R、R平方和調整後R平方是多少?
- 在0.05的顯著水準下,邏輯能力和智力是否對學期成績的預測有幫助?
首先,利用上表的資料先分別計算出邏輯能力和學期成績、智力和學期成績、邏輯能力和智力的相關係數,也就是3個皮爾森積差相關係數。關於皮爾森積差相關係數的計算方法,請參考如何計算皮爾森積差相關係數。
若邏輯能力和學期成績的相關係數為、智力和學期成績的相關係數為、邏輯能力和智力的相關係數為,且為了提高之後運算結果的準確度,把所有的相關係數都四捨五入到小數點後第4位,這3個相關係數分別為:
然後把這3個相關係數的數值帶入上面的公式(1)來求得3個變項的複相關係數R,計算過程如下:
計算結果顯示邏輯能力、智力和學期成績的複相關係數R為0.7689,再把複相關係數的數值平方變成R平方:
計算結果指出R平方為0.5912,這數值表示學生的邏輯能力和智力整體可以解釋法學緒論學期成績裡59.12%的變異。為了得到相對無偏誤的母群體R平方估計值,可再利用上面的公式(2)來計算調整後R平方。已知樣本總數為10且自變項個數為2,則調整後R平方的計算過程如下:
調整後R平方為0.4744,代表47.44%的學期成績變異可以被邏輯能力和智力解釋,這結果和尚未調整前的R平方0.5912有滿大的差異。因為這例子只有10位學生,樣本很小,再加上有2個自變項,所以R平方和調整後R平方的差異會比較大。當樣本總數愈大的時候,R平方和調整後R平方的差異會愈小。
雖然分析結果指出學生的邏輯能力和智力整體可以解釋法學緒論學期成績裡59.12%的變異,代表這2個自變項和依變項間有滿緊密的關係,但不確定這層關係是否真實地存在於母群體裡。為了檢驗這層關係,就須進行複相關係數的假設檢定。若母群體的複相關係數符號為,沒有方向性的研究假設為:
- 虛無假設():學生的邏輯能力和智力整體對法學緒論學期成績的預測沒有幫助,也就是。
- 對立假設():學生的邏輯能力和智力整體對法學緒論學期成績的預測有幫助,也就是。
已知樣本總數為10、自變項個數為2、R平方為0.5912,利用上面的公式(3)來求得F檢定統計量或簡單稱為F值:
為了找到和這個F值比較的F臨界值,須查詢F臨界值表。這個例子的分子自由度為2、分母自由度為7、α水準為0.05,查表得知F臨界值為4.74。比較F值和F臨界值,因為,所以拒絕虛無假設,接受對立假設。
分析結果指出學生的邏輯能力和智力整體對法學緒論學期成績的預測有幫助,而且R平方顯示學生的邏輯能力和智力整體可以解釋59.12%學期成績的變異,調整後R平方則是指出學生的邏輯能力和智力整體可以說明47.44%學期成績的變異。
運用SPSS取得複相關係數和執行假設檢定
將上面例子裡10位學生的邏輯能力成績、智力和學期成績的資料輸入至SPSS資料編輯器裡,如下圖。關於SPSS的資料輸入方法,請參考SPSS操作環境和資料輸入。
資料輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。
在「線性迴歸」視窗裡,把學期成績SCORE移至應變數(D),邏輯能力成績LOGIC和智力IQ都移到自變數(I),然後點選視窗右側的統計資料(S)。在「線性迴歸:統計量」小視窗裡,除了原本已被勾選的選項外,另外勾選敘述統計(D),完成後按下小視窗下方的繼續(C)。回到「線性迴歸」視窗後,再按下視窗最下方的確定。
經過上述的操作步驟,在輸出結果裡會先看到「描述統計量」和「相關」2個表格。「描述統計量」表顯示每個變項的平均數、標準差和樣本數,而「相關」表則顯示兩兩變項之間的皮爾森積差相關係數和假設檢定的結果。
從下面的「相關」表可以看到,學期成績和邏輯能力的相關係數為0.686,學期成績和智力的相關係數為0.587,而邏輯能力和智力的相關係數為0.389。表格裡的假設檢定為單尾檢定的結果,若想得到雙尾檢定的結果,須將機率值乘以2。若使用雙尾檢定,只有學期成績和邏輯能力有顯著的關聯()。
複相關係數R會顯示在「模型摘要」表格裡,這表格也會顯示R平方、調整後R平方和多元線性迴歸的估計標準誤。下面的「模型摘要」表顯示複相關係數R為0.769、R平方為0.591而調整後R平方為0.474,這些數值全部和上面紙筆計算的結果相同。
最後,若要探討複相關係數的假設檢定結果,須檢視「ANOVA」表格。這表格裡的F值是利用整個多元線性迴歸模型可以解釋的變異和不可解釋的變異計算出來,和利用上面公式(3)所計算出來的結果是相同的。
當運用統計分析軟體來評估假設檢定的結果時,可以利用機率比較的決策規則,只要獲得某特定檢定統計量的機率等於或小於事先設定的顯著水準(α水準)時,即可拒絕虛無假設。從下表可以看出,F值為5.062,而獲得該值的機率為0.044,因為,所以可拒絕虛無假設,接受對立假設。
SPSS的分析結果指出學生的邏輯能力和智力整體對法學緒論學期成績的預測有幫助,這個分析結果相同於上面紙筆運算所得到的結論。由於統計分析軟體會輸出獲得某特定檢定統計量的機率,省去查詢機率分配表的麻煩,所以執行假設檢定的評估時會比較快速。
以上為本篇文章對複相關係數的意義和假設檢定的介紹,希望透過本篇文章,您瞭解了複相關係數的意義、計算和假設檢定的過程,也學會了利用SPSS取得複相關係數和評估研究結果的方法。若您喜歡本篇文章,請將本網站加入書籤,並持續回訪本網站喔!另外,也歡迎您追蹤本網站的Facebook和/或Twitter專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給Dr. Fish更多撰寫優質文章的動力喔!