🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址
最小平方迴歸線的建構和計算
變項之間的相關(correlation)和線性迴歸(linear regression)之間有著密不可分的關係。相關在探討兩個變項之間關係的方向和程度,線性迴歸則是利用兩變項之間的關係所建構的迴歸線來進行預測,而最小平方迴歸線即是一條將預測誤差最小化的迴歸線。
變項間的相關具有不同的特色,其中一個特色為完全關係和不完全關係。完全關係指成對的兩變項所構成的點落在同一條直線上,可透過直線上的任何兩個點計算出直線方程式,並且可利用該直線方程式進行完美的預測。
相反地,不完全關係是指成對的兩變項所構成的點沒有落在同一條直線上,但當其中一個變項的值增加時,另一個變項的值也有增加或減少的趨勢。此時,可在這些點中建構出一條適合所有點的直線以便進行預測,該條線即稱為迴歸線(regression line)。
本篇文章將以迴歸線為主軸,介紹迴歸線的定義、迴歸線的建構、迴歸線的計算以及如何使用SPSS和Excel取得迴歸線方程式。若您只對文章中某部分的內容感興趣,也可點選下方的連結,即可直接跳至您想瞭解的內容。
迴歸線的定義
若兩個變項屬於不完全的關係,雖然在此種情況下成對的兩個變項所構成的點不會完美地落在同一條直線上,但只要兩個變項之間呈現系統性的變化(也就是說,當其中一個變項的數值增加的時候,另一個變項的數值也有增加或減少的趨勢),就可以在這兩個變項之間建構出一條適合所有點的直線,而該條直線即稱為迴歸線。
迴歸線是依據最小平方法(least squares)準則,將預測誤差最小化而建構出來的一條線,所以該條線又稱為最小平方迴歸線(least-squares regression line)。雖然在成對的變項所構成的點中可以畫出許多條直線,但唯有最小平方迴歸線能夠達到最佳的整體預測準確性。
用下圖來說明,圖中的每一點為原始的觀察值(也就是原始數據),預測值則會落在迴歸線上。圖中的虛線即為每一個觀察值和其預測值之間的距離,也就是預測誤差(prediction error),而最小平方迴歸線就是將整體的預測誤差降到最小的一條最適線(the best fitting line)。

在任何的線性關係中,只有一條能夠將預測誤差最小化的線,因此每一線性關係都只會有一條最小平方迴歸線。既然最小平方迴歸線的預測誤差最小,代表該條線能夠給予最準確的整體預測值,而這也是實務上使用該條線的最主要原因。
瞭解了最小平方迴歸線的定義後,接著來探討其方程式和計算方法,包括紙筆計算和SPSS、Excel兩種軟體的運用。
最小平方迴歸線的建構和計算
若為依變項,
為自變項,
為第
個
的預測值,
為第
個
的值,
為預測誤差最小化時直線的截距,
為預測誤差最小化時直線的斜率,用
預測
的最小平方迴歸線方程式如下:
上面的方程式裡,通常被稱為迴歸常數(regression constant)而
通常被稱為迴歸係數。斜率
是指當自變項
改變1個單位的時候,依變項
會改變
個單位。截距則是指當自變項
等於0的時候,依變項
的數值。
為了讓公式更簡明,讓為變項
所有數值的總和、
為變項
所有數值的總和、
為成對的
和
變項數值的乘積和、
為變項
裡每一個數值平方後的總和、
為變項
數值的離差平方和、
為成對變項數值的總數或樣本總數,預測誤差最小化時直線斜率
的公式為:
(1)
得到預測誤差最小化時直線的斜率後,即可計算預測誤差最小化時直線的截距
。讓
、
分別代表變項
和
的平均數,截距的公式為:
(2)
使用1個自變項來預測依變項的迴歸分析通常稱為簡單線性迴歸(simple linear regression),即可用上面的公式(1)和(2)建構出最小平方迴歸線方程式,下面舉一個例子來示範他們的計算過程和計算結果的解釋。
最小平方迴歸線的例子
假設有一研究想探討駕駛者年齡(AGE)和平均行車速度(SPEED)之間的關係,年齡為自變項,平均行車速度為依變項,共有10位參與者,資料如下表。試利用這10位參與者的資料,建構出以年齡預測平均行車速度的最小平方迴歸線方程式。

首先,為了使用上面的斜率公式(1)和截距公式(2),可先在如下的表格裡計算出套用這兩個公式時所需要的數值:

再將上表中的數值套入上述的公式(1)和(2)中,因為截距的計算需要斜率,所以先利用公式(1)計算斜率。為了得到較精確的數值,計算過程中斜率和截距皆四捨五入到小數點後第4位,但最後的方程式則取至小數點後第3位。
計算結果顯示斜率為-0.8864。接著,將斜率和兩變項的平均數帶入截距的公式裡,也就是上面的公式(2):
從以上的計算結果得知,最小平方迴歸線的方程式為。斜率
表示當駕駛的年齡增加1歲時,平均行車速度會減少
公里。
該方程式可作為預測用途,若知道駕駛者的年齡,即可預測其平均車速。假設有位駕駛的年齡為40歲,則其平均車速為:
從計算結果得知,當駕駛者的年齡為40歲時,他平均的行車速度為80.816公里。因此,使用最小平方迴歸線方程式,可以很簡單地進行預測。
最小平方迴歸線使用時的注意事項
透過上面的實例操作可發現最小平方迴歸線的建構並不困難,不過最小平方迴歸線雖然可以很方便地用來進行預測,但在使用時有3點注意事項:
- 兩變項之間須為線性關係:原則上,變項之間須為線性關係,建構出來的最小平方迴歸線才具有意義;若變項之間不是線性關係,即無法進行準確的預測。
- 隨機取樣的樣本所建構的最小平方迴歸線才可用來預測:若要運用某一樣本建構出來的最小平方迴歸線至其他群體上,則該樣本在想要被預測的群體裡必須具有代表性,也就是該樣本必須是從想被預測的群體裡隨機抽取出來才可。
- 僅能在建構出最小平方迴歸線的變項數值範圍內進行預測:例如上面範例的年齡介於20至69歲之間,因為無從得知超過該範圍的年齡是否仍與平均行車速度間呈現線性關係,所以只能使用該範圍內的年齡來進行預測。
雖然最小平方迴歸線方程式可透過紙筆計算取得,但當資料龐大時,這種方式便顯得不切實際,以下示範如何利用軟體來取得最小平方迴歸線方程式。
運用SPSS取得最小平方迴歸線
將上面範例的資料輸入至SPSS資料編輯器裡,資料輸入的方法可以參考SPSS操作環境和資料輸入。輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。

在「線性迴歸」視窗中,將年齡AGE移至自變數(I)方框,平均行車速度SPEED移至應變數(D)方框中,完成後按下視窗最下方的確定。(SPSS的自變數即為文中的自變項,應變數即為依變項,僅為翻譯和個人習慣用法之不同。)

SPSS會輸出如下的係數表格,檢視該表格的B欄位,常數116.254為截距,AGE的-.886為斜率,所以最小平方迴歸線方程式為。

雖然SPSS輸出的截距數值較紙筆計算的結果少了0.002,但此為進位誤差所導致,非計算錯誤。也就是說,SPSS輸出的係數相同於上面紙筆計算的結果。
運用Excel取得最小平方迴歸線
若沒有SPSS或其他統計分析軟體,也可以使用微軟的Excel來取得最小平方迴歸線方程式。首先,將資料輸入至一空白活頁簿中,或利用SPSS的匯出功能將資料轉換成Excel可讀取的資料檔,詳細操作可參考匯出SPSS資料至Excel並繪製盒形圖。
接著,圈選包含AGE和SPEED所有資料的儲存格,再點選Excel功能表的插入 » 插入XY散佈圖或泡泡圖 » 散佈圖,繪製兩變項的散布圖(自變項AGE置於橫座標軸,依變項SPEED置於縱座標軸)。更詳細的散布圖繪製方式,可參考如何繪製散布圖。
用滑鼠在圖形上的任何一處點一下,圖形的右上方會出現3個小圖示。點選最上面的✚圖示,在隨即出現的圖表項目選項中,點選趨勢線 » 其他選項…,帶出「趨勢線格式」視窗。

在「趨勢線格式」視窗中,選擇線性(L)的趨勢線。此外,勾選視窗最下方的圖表上顯示公式(E)的選項。

經過上述的步驟後,最小平方迴歸線方程式會直接顯示在散布圖裡趨勢線的旁邊,如下圖所示。和SPSS相較之下,用Excel取得最小平方迴歸線方式真地非常簡單、快速。

不論是紙筆計算或使用軟體,皆可求得最小平方迴歸線方程式。但在資料龐大時,紙筆計算已不切實際,此時可透過SPSS或Excel等軟體,即可快速且簡單地取得所需的結果。
若想探討最小平方迴歸線的預測準確度,可進一步計算估計標準誤。若估計標準誤的數值愈大,代表預測誤差愈大;若數值愈小,則代表預測誤差愈小,詳細的介紹請參考估計標準誤測量預測誤差。
此外,最小平方迴歸線的截距和斜率皆是利用樣本資料計算得來,若想進一步探討自變項對於依變項的預測是否有明顯的幫助,也就是母群體的斜率是否為0,則須進行假設檢定,詳細的說明請參考簡單線性迴歸的假設檢定。
以上為本篇文章對最小平方迴歸線的建構和計算的介紹,希望透過本篇文章,您瞭解了最小平方迴歸線的定義、方程式和計算方法,也學會了利用SPSS和Excel取得最小平方迴歸線方程式的操作方式。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習資源,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!