當想要瞭解兩個變項之間是否存在關聯性,且一個變項的改變如何影響另一個變項的變化時,可以先透過散布圖、相關係數來探討兩變項之間的關聯方向和程度。若分析結果指出兩變項之間為不完全的線性關係,可以再利用兩變項建構出一條最小平方迴歸線,從迴歸線的斜率評估一個變項如何隨著另一個變項而變化。
不過相關係數和最小平方迴歸線的斜率皆是從樣本計算得來,無法知道兩變項之間的關係是否真實地存在於母群體中。若想探討兩變項的相關係數和斜率是否能反映母群體的真實情況,就須執行假設檢定或稱為顯著性檢定,也就是檢驗母群體的參數是否為0。
利用統計分析軟體如SPSS執行簡單線性迴歸分析時,分析結果除了顯示兩變項間關係程度的相關係數、最小平方迴歸線的截距和斜率等迴歸係數之外,也會指出獲得這些係數的機率,藉由這些資訊即可進行假設檢定。下面內容將介紹簡單線性迴歸的使用時機、簡單線性迴歸裡兩變項的相關係數和斜率的假設檢定過程,並舉一例子說明,最後示範利用SPSS執行簡單線性迴歸的方法和解釋分析結果。
簡單線性迴歸的使用時機
簡單線性迴歸(simple linear regression)是涉及一個自變項和一個依變項的分析,兩變項之間為不完全的線性關係,變項的測量尺度為等距或比率尺度,用來探討自變項的改變如何影響依變項的變化。在這兩變項間可以建構出一條迴歸線,用來預測某個自變項數值的依變項結果。
雖然兩變項之間可以建構出許多條直線,但唯有一條能夠最小化預測誤差的直線,即為最小平方迴歸線(least-squares regression line),而利用這條線進行預測才能達到最好的預測準確度。若自變項為X、依變項為Y,用X預測Y的最小平方迴歸線方程式為:
在上面的方程式裡,指第個Y的預測值,指第個X的值,為預測誤差最小化時迴歸線的截距,為預測誤差最小化時迴歸線的斜率。截距和斜率在統計分析軟體的輸出結果裡通常會出現在「係數」(coefficients)的表格裡,下面SPSS的示範說明裡即會看到。
截距是指自變項的數值為0時依變項的數值,而斜率為自變項改變1個單位時依變項會產生的變化。由於研究人員通常會把焦點放在斜率而不是截距上,所以下面內容也把重點放在斜率的假設檢定過程。若想更深入瞭解最小平方迴歸線,請參考最小平方迴歸線的建構和計算。
簡單線性迴歸的假設檢定
一般而言,在統計分析軟體的簡單線性迴歸分析結果裡,除了迴歸係數外,還會輸出兩變項的相關係數和其假設檢定結果。由於兩變項的關聯程度左右著斜率的結果,所以在探討斜率的假設檢定前,先看一下相關係數的假設檢定過程。若您不清楚或不熟悉統計檢定的假設檢定方法,可參考假設檢定的步驟和範例,將有助於下面內容的理解喔!
相關係數的假設檢定
簡單線性迴歸裡相關係數的假設檢定其實就是皮爾森積差相關係數的假設檢定,也是用來評估簡單迴歸模型和資料間的適合度(goodness of fit)。皮爾森積差相關係數是測量兩變項間關係的方向和程度的一種相關係數,通常從樣本的資料計算得到,符號為,而為了評估兩者間的關係是否真實地存在於母群體中,就須進行假設檢定。關於皮爾森積差相關係數的意義,請參考何謂皮爾森積差相關係數。
假設母群體相關係數的符號為,研究假設沒有方向性,虛無假設()主張自變項和依變項彼此獨立,不具有關聯性,也就是。反之,對立假設()主張自變項和依變項具有線性的關聯性,也就是。
然後依據研究的性質和目的,選擇適當的顯著水準或稱為α水準,通常為0.05、0.01或更為嚴苛的0.001。由於研究假設不具有方向性,所以統計檢定為雙尾檢定。關於顯著水準和檢定方向性的說明,請參考顯著水準和決策規則。
當樣本數很大且母群體相關係數的時候,皮爾森積差相關係數的抽樣分配會趨近於常態分配,與t分配的型態一致。因此,簡單線性迴歸裡相關係數的假設檢定使用t分配和t檢定統計量,自由度(degrees of freedom,簡寫為df)為。計算t檢定統計量的公式如下:
(1)
利用上面的公式(1)計算得到t檢定統計量後,查詢t分配表,根據事先選擇的α水準和自由度,尋找相對應的t臨界值。最後,比較t檢定統計量和t臨界值,當t檢定統計量的絕對值等於或大於t臨界值的絕對值時,即可拒絕虛無假設,接受對立假設;反之,則保留虛無假設。
不過統計分析軟體可能會利用迴歸線的存在而能夠解釋的變異和不能被解釋的變異來計算F檢定統計量或F值,而不是t檢定統計量。遇到這種情況時,因為t檢定統計量的平方等於F值(分子自由度1、分母自由度),所以把F值開根號後即可得到t檢定統計量。關於簡單迴歸模型能夠劃分出來的3種變異,請參考迴歸線和皮爾森積差相關係數間的關係。
斜率的假設檢定
在只有一個自變項的簡單線性迴歸裡,斜率的假設檢定結果會和上面的相關係數的假設檢定結果相同。換句話說,當相關係數的假設檢定發現自變項和依變項間有顯著的關聯性時,最小平方迴歸線的斜率也會達到統計上顯著,也就是依變項會隨著自變項的改變而產生變化。不過,這層關係在數個自變項的多元線性迴歸(multiple linear regression)裡就不存在,顯著的相關係數不代表每一個自變項的斜率都會達到統計顯著。
假設母群體的斜率為,且研究假設不具有方向性。虛無假設()會主張自變項對依變項數值的預測沒有幫助,也就是。相反地,對立假設()主張自變項對依變項數值的預測有所幫助,也就是。
和相關係數的假設檢定相同,擬定好研究假設後,再依據研究的性質和目的,選擇適當的顯著水準或α水準,習慣上為0.05、0.01或0.001。因為研究假設不具有方向性,所以採用雙尾檢定。
斜率的假設檢定同樣使用t分配和t檢定統計量,當檢驗的虛無假設時,計算t檢定統計量的公式如下:
(2)
在上面的公式(2)裡,指斜率的標準誤,指最小平方迴歸線的估計標準誤,為自變項的標準差,為樣本總數。
利用公式(2)計算得到斜率的t檢定統計量後,根據事先決定好的α水準和的自由度,從t分配表尋找相對應的t臨界值。最後,比較t檢定統計量和t臨界值,當t檢定統計量的絕對值等於或大於t臨界值的絕對值時,可以拒絕虛無假設,接受對立假設;反之,保留虛無假設。
除此之外,還可以利用斜率、t臨界值和斜率標準誤求得母群體斜率的信賴區間,也就是真實的斜率可能存在的數值範圍。若為信賴區間的機率值,通常為0.95或0.99,則母群體斜率的信賴區間(confidence intervals)公式為:
(3)
上面公式(3)的t值為雙尾檢定、自由度為時的臨界值,可透過t分配表取得。當信賴區間不包含數值0的時候,代表母群體的斜率不等於0,因此可以拒絕虛無假設,接受對立假設。
簡單線性迴歸假設檢定的例子
這裡使用最小平方迴歸線的預測區間計算的例子,假設有位研究人員想探討孩童在問題解決時的不相關回應次數是否會隨著年齡的增長而減少。她蒐集了12位孩童的資料,分別記錄了他們的年齡(AGE)和問題解決時不相關的回應次數(RESPONSE),資料如下表。若年齡為自變項,不相關的回應次數為依變項,試執行簡單線性迴歸的假設檢定並說明分析結果。
首先,為了瞭解兩變項之間的關係,可以先繪製一個散布圖。把孩童年齡置於橫座標軸、不相關的回應次數置於縱座標軸,畫出來的散布圖如下。從下圖可看出,當孩童的年齡增加時,問題解決時不相關的回應次數有減少的趨勢,兩者間呈現出一種負向的、不完全的線性關係。關於變項之間關係的型態,請參考變項之間關係的基本特色。
從上面12位孩童的資料,可以計算出年齡和不相關回應次數的皮爾森積差相關係數、自變項年齡的標準差、估計標準誤以及用年齡預測不相關回應次數的最小平方迴歸線方程式。若把這些數值都四捨五入到小數點後第3位,這些數值和最小平方迴歸線方程式如下:
由於這裡的重點為假設檢定,所以皮爾森積差相關係數的計算、標準差、估計標準誤的計算和最小平方迴歸線的建構請分別參考如何計算皮爾森積差相關係數、變異性的測量、估計標準誤測量預測誤差和最小平方迴歸線的建構和計算。利用上面這些數值,先進行相關係數的假設檢定再進行斜率的假設檢定。
❶ 相關係數的假設檢定
在進行相關係數的假設檢定前,須先擬定研究假設。若母群體相關係數為,不具有方向性的虛無假設和對立假設分別為:
- 虛無假設():孩童年齡和問題解決時不相關的回應次數沒有關聯,也就是。
- 對立假設():孩童年齡和問題解決時不相關的回應次數有關聯,也就是。
假設這研究為探索的性質,所以選擇較寬鬆的α水準0.05。另外,由於研究假設不具有方向性,所以統計檢定為雙尾檢定。
已知皮爾森積差相關係數為-0.815,樣本總數為12,把這些數值帶入上面的公式(1)來計算t檢定統計量,過程如下:
查詢t分配表,當α水準為0.05、自由度為10且雙尾檢定時,t臨界值為2.228。最後,比較t檢定統計量的絕對值和t臨界值的絕對值,因為,所以拒絕虛無假設,接受對立假設。
相關係數的假設檢定結果指出,孩童年齡和問題解決時不相關的回應次數有顯著的關聯性,且因為相關係數為負數,表示兩者間為負向的關係,也就是孩童的年齡愈大,問題解決時不相關的回應次數會愈少。
❷ 斜率的假設檢定
相關係數的假設檢定顯示孩童年齡和問題解決時不相關的回應次數有顯著的關聯性,於是可以進一步來探討不相關的回應次數如何隨著孩童年齡的不同而改變,也就是斜率的假設檢定。
在進行斜率的假設檢定前,同樣先擬定沒有方向性的研究假設。若母群體的斜率為,虛無假設和對立假設分別如下:
- 虛無假設():孩童年齡對不相關回應次數的預測沒有幫助,也就是。
- 對立假設():孩童年齡對不相關回應次數的預測有幫助,也就是。
顯著水準(α水準)同樣為0.05,且因為是沒有方向性的研究假設,所以統計檢定為雙尾檢定。接著,把斜率、自變項年齡的標準差、迴歸線的估計標準誤和樣本總數帶入上面的公式(2),計算斜率的t檢定統計量,過程如下:
因為這個例子只有一個自變項,所以斜率的t檢定統計量和上面相關係數的t檢定統計量應該是一樣的,但因為紙筆計算過程造成的進位誤差,使得2個t檢定統計量有些微的差異。
從上面相關係數的假設檢定已知t臨界值為2.228,比較t檢定統計量的絕對值和臨界值的絕對值,因為,所以拒絕虛無假設,接受對立假設。
分析結果顯示孩童年齡對問題解決時不相關回應次數的預測有幫助,且斜率-0.72指出當年齡增加1歲的時候,孩童在問題解決時不相關的回應會減少0.72次。
若想計算母群體斜率的信賴區間,可將斜率、斜率標準誤和t臨界值帶入上的公式(3)。若要求得95%的信賴區間,計算過程如下:
從計算結果可以知道,有0.95的機率或95%的信心程度,真實的斜率會落在-1.081和-0.359之間。因為這2個數值間不包含0,所以95%信賴區間的結果也指出孩童年齡對問題解決時不相關回應次數的預測有幫助。
運用SPSS執行簡單線性迴歸的假設檢定
將上面例子裡12位孩童的資料輸入至SPSS資料編輯器裡,可在第1欄增加一個參與者編碼的變項,名稱為ID。在樣本數較多的時候,參與者編碼將有助於資料輸入和資料整理的過程。關於SPSS資料輸入的方法,請參考SPSS操作環境和資料輸入。
資料輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。
在「線性迴歸」視窗裡,將年齡AGE移到自變數(I),不相關的回應次數RESPONSE移到應變數(D),再點選視窗最右側的統計資料(S)。在「線性迴歸:統計量」小視窗裡,除了原本就已經被勾選的地方外,再勾選敘述統計(D)和迴歸係數裡的信賴區間(N),也可修改信賴區間的機率值。完成後按下小視窗下方的繼續(C),回到「線性迴歸」視窗後,再按下視窗下方的確定。
經過上面的步驟,SPSS會輸出幾個表格,由於有些名詞的中文翻譯有點怪,所以這裡放上英文的輸出。一開始會看到「描述統計量」和「相關」表,「描述統計量」表顯示自變項年齡(AGE)和依變項不相關回應次數(RESPONSE)的平均數、標準差和樣本數等資訊。「相關」表則顯示自變項和依變項的皮爾森積差相關係數,為-0.815,代表兩變項為負向的關係。
接著,「模型摘要」表呈現整個簡單線性迴歸模型和資料間的適合度,因為在數個自變項的多元線性迴歸裡,表中的相關係數為複相關係數,所以用大寫的R來表示。此外,雖然表中的R是兩變項的皮爾森積差相關係數,但因為是從R平方(R Square)開根號計算而來,所以永遠是正數,即使像這裡的例子裡兩變項實際上為負向關係,仍舊會顯示正數。
再往下的「變異數分析」表格,即是相關係數的假設檢定結果,只是用F檢定統計量而不是用t檢定統計量。這裡的F值是用整個簡單線性迴歸模型可解釋的變異和不可解釋的變異計算出來,分子自由度為1而分母自由度為10。把上面紙筆計算的t檢定統計量平方,,就是下表中的F值,但因為紙筆計算過程有進位誤差,所以2個數值有些差異。
利用SPSS或其他統計分析軟體進行研究結果的評估時,不使用檢定統計量和臨界值比較的決策規則,而是比較獲得檢定統計量的機率值和事先選擇的α水準,當時,可拒絕虛無假設。從上面的「變異數分析」表可知獲得F值的值為0.001,而α水準為0.05,因為,所以拒絕虛無假設,相關係數的假設檢定指出孩童年齡和問題解決時不相關的回應次數有顯著的關聯。
最後可以看到「係數」表,這表格呈現出最小平方迴歸線的截距、斜率和假設檢定結果。從下表可看出,截距為14,斜率為-0.72,斜率的t檢定統計量為-4.442而獲得這個檢定統計量的值為0.001。因為,所以拒絕虛無假設,研究結果指出孩童年齡對問題解決時不相關回應次數的預測有顯著的幫助。另外,有95%的信心程度,真實的斜率會落在-1.081和-0.359之間。
不論是相關係數的假設檢定或斜率的假設檢定,結果都和上面紙筆計算的結果相同。不像紙筆計算過程中所使用的檢定統計量和臨界值比較的決策規則,運用統計分析軟體進行假設檢定時,只須比較獲得某檢定統計量的機率值和事先選擇的α水準即可評估保留或拒絕虛無假設,省去查詢t分配或F分配表的麻煩。
如果您沒有統計分析軟體如SPSS,也可以使用微軟的Excel來執行簡單線性迴歸的假設檢定,而且操作方法很簡單。利用Excel執行檢定線性迴歸有2種方法,一種是透過LINEST函數,另一種是運用「分析工具箱」裡的資料分析工具,詳細的操作方法請參考如何使用Excel執行簡單線性迴歸。
以上為本篇文章對簡單線性迴歸的假設檢定之介紹,希望透過本篇文章,您瞭解了相關係數和斜率的假設檢定過程,也學會了利用SPSS執行假設檢定的方法。若您喜歡本篇文章,請將本網站加入書籤,並隨時回訪本網站喔!另外,也歡迎追蹤本網站的Facebook和/或Twitter專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給Dr. Fish更多撰寫優質文章的動力喔!