Skip to content

合作邀約 email: dr.fish@drfishstats.com

  • Facebook
  • X
site icon of Dr. Fish

Dr. Fish 漫游社會統計

魚博士的專業漫談和課後隨筆

  • Home
  • 關於Dr. Fish
  • 統計基礎
    • 入門概念
    • 圖形繪製
    • 描述統計
    • 相關
    • 線性迴歸
  • 統計進階
    • 推論統計
    • 統計檢定
      • 相關係數
      • 迴歸
      • 平均數比較
      • 無母數檢定
  • EXCEL系列
    • 資料管理
    • 圖形繪製
      • 匯出SPSS資料至Excel並繪製盒形圖
      • 如何使用Excel製作Q-Q plot
      • 如何使用Excel繪製加上誤差線的長條圖
    • 描述統計
      • 如何使用Excel執行次數分配
      • 如何使用Excel樞紐分析表製作次數分配表
      • 如何使用Excel計算偏態和峰態
      • 如何使用Excel尋找常態曲線下面積或分數
      • 如何使用Excel一次取得描述性統計量
      • 如何使用Excel計算共變異數
      • 如何使用Excel取得皮爾森積差相關係數
      • 如何使用Excel製作列聯表
    • 推論統計
      • 如何使用Excel計算信賴區間
      • 如何使用Excel執行符號檢定
      • 如何使用Excel執行單一樣本z檢定和t檢定
      • 如何使用Excel執行獨立樣本t檢定
      • 如何使用 Excel 執行 Levene 檢定
      • 如何使用Excel執行關聯樣本t檢定
      • 如何使用Excel執行單因子變異數分析
      • 如何使用Excel執行簡單線性迴歸
      • 如何使用Excel計算最小平方迴歸線的預測區間
      • 如何使用Excel執行卡方獨立性檢定
  • 下課後
    • 生活
    • 旅遊
      • 日本
    • 美食
    • 攝影
  • 聯絡Dr. Fish
  • Home
  • 線性迴歸
  • 最小平方迴歸線的建構和計算

🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址

最小平方迴歸線的建構和計算

Posted on 2021-09-022024-05-13 Updated on 2024-05-132024-05-13 By Dr. Fish
線性迴歸

變項之間的相關(correlation)和線性迴歸(linear regression)之間有著密不可分的關係。相關在探討兩個變項之間關係的方向和程度,線性迴歸則是利用兩變項之間的關係所建構的迴歸線來進行預測,而最小平方迴歸線即是一條將預測誤差最小化的迴歸線。

變項間的相關具有不同的特色,其中一個特色為完全關係和不完全關係。完全關係指成對的兩變項所構成的點落在同一條直線上,可透過直線上的任何兩個點計算出直線方程式,並且可利用該直線方程式進行完美的預測。

相反地,不完全關係是指成對的兩變項所構成的點沒有落在同一條直線上,但當其中一個變項的值增加時,另一個變項的值也有增加或減少的趨勢。此時,可在這些點中建構出一條適合所有點的直線以便進行預測,該條線即稱為迴歸線(regression line)。

本篇文章將以迴歸線為主軸,介紹迴歸線的定義、迴歸線的建構、迴歸線的計算以及如何使用SPSS和Excel取得迴歸線方程式。若您只對文章中某部分的內容感興趣,也可點選下方的連結,即可直接跳至您想瞭解的內容。

  • 迴歸線的定義
  • 最小平方迴歸線的建構和計算
    • 最小平方迴歸線的例子
    • 最小平方迴歸線使用時的注意事項
  • 運用SPSS取得最小平方迴歸線
  • 運用Excel取得最小平方迴歸線

迴歸線的定義

若兩個變項屬於不完全的關係,雖然在此種情況下成對的兩個變項所構成的點不會完美地落在同一條直線上,但只要兩個變項之間呈現系統性的變化(也就是說,當其中一個變項的數值增加的時候,另一個變項的數值也有增加或減少的趨勢),就可以在這兩個變項之間建構出一條適合所有點的直線,而該條直線即稱為迴歸線。

迴歸線是依據最小平方法(least squares)準則,將預測誤差最小化而建構出來的一條線,所以該條線又稱為最小平方迴歸線(least-squares regression line)。雖然在成對的變項所構成的點中可以畫出許多條直線,但唯有最小平方迴歸線能夠達到最佳的整體預測準確性。

用下圖來說明,圖中的每一點為原始的觀察值(也就是原始數據),預測值則會落在迴歸線上。圖中的虛線即為每一個觀察值和其預測值之間的距離,也就是預測誤差(prediction error),而最小平方迴歸線就是將整體的預測誤差降到最小的一條最適線(the best fitting line)。

prediction errors in regression

在任何的線性關係中,只有一條能夠將預測誤差最小化的線,因此每一線性關係都只會有一條最小平方迴歸線。既然最小平方迴歸線的預測誤差最小,代表該條線能夠給予最準確的整體預測值,而這也是實務上使用該條線的最主要原因。

瞭解了最小平方迴歸線的定義後,接著來探討其方程式和計算方法,包括紙筆計算和SPSS、Excel兩種軟體的運用。

最小平方迴歸線的建構和計算

若Y為依變項,X為自變項,\hat Y_i為第i個Y的預測值,X_i為第i個X的值,a為預測誤差最小化時直線的截距,b為預測誤差最小化時直線的斜率,用X預測Y的最小平方迴歸線方程式如下:

    \[ \hat Y_i=a+bX_i \]

上面的方程式裡,a通常被稱為迴歸常數(regression constant)而b通常被稱為迴歸係數。斜率b是指當自變項X改變1個單位的時候,依變項Y會改變b個單位。截距則是指當自變項X等於0的時候,依變項Y的數值。

為了讓公式更簡明,讓\sum X為變項X所有數值的總和、\sum Y為變項Y所有數值的總和、\sum {XY}為成對的X和Y變項數值的乘積和、\sum X^2為變項X裡每一個數值平方後的總和、SS_X為變項X數值的離差平方和、N為成對變項數值的總數或樣本總數,預測誤差最小化時直線斜率b的公式為:

(1)   \begin{align*}b &=\frac {\sum {XY}-\dfrac {(\sum X)(\sum Y)}{N}}{SS_X} \\[10pt]&=\frac {\sum {XY}-\dfrac {(\sum X)(\sum Y)}{N}}{\sum X^2-\dfrac {(\sum X)^2}{N}} \end{align*}

得到預測誤差最小化時直線的斜率b後,即可計算預測誤差最小化時直線的截距a。讓\overline X、\overline Y分別代表變項X和Y的平均數,截距的公式為:

(2)   \begin{equation*}a=\overline Y-b \overline X\end{equation*}

使用1個自變項來預測依變項的迴歸分析通常稱為簡單線性迴歸(simple linear regression),即可用上面的公式(1)和(2)建構出最小平方迴歸線方程式,下面舉一個例子來示範他們的計算過程和計算結果的解釋。

最小平方迴歸線的例子

假設有一研究想探討駕駛者年齡(AGE)和平均行車速度(SPEED)之間的關係,年齡為自變項,平均行車速度為依變項,共有10位參與者,資料如下表。試利用這10位參與者的資料,建構出以年齡預測平均行車速度的最小平方迴歸線方程式。

example of pearson r

首先,為了使用上面的斜率公式(1)和截距公式(2),可先在如下的表格裡計算出套用這兩個公式時所需要的數值:

computation of least-squares regression line

再將上表中的數值套入上述的公式(1)和(2)中,因為截距的計算需要斜率,所以先利用公式(1)計算斜率。為了得到較精確的數值,計算過程中斜率和截距皆四捨五入到小數點後第4位,但最後的方程式則取至小數點後第3位。

    \begin{align*}b &=\frac {\sum {XY}-\dfrac {(\sum X)(\sum Y)}{N}}{\sum X^2-\dfrac {(\sum X)^2}{N}} \\[5pt]&=\frac {32211-\dfrac {444 \times 769}{10}}{21894-\dfrac {444^2}{10}} \\[5pt]&=\frac {-1932.6}{2180.4} \\[5pt]&\approx -0.8864\end{align*}

計算結果顯示斜率b為-0.8864。接著,將斜率和兩變項的平均數帶入截距的公式裡,也就是上面的公式(2):

    \begin{align*}a &=\overline Y-b \overline X \\&=76.9-(-0.8864) \times 44.4 \\&=116.2562\end{align*}

從以上的計算結果得知,最小平方迴歸線的方程式為\hat Y_i=116.256-0.886X_i。斜率-0.886表示當駕駛的年齡增加1歲時,平均行車速度會減少0.886公里。

該方程式可作為預測用途,若知道駕駛者的年齡,即可預測其平均車速。假設有位駕駛的年齡為40歲,則其平均車速為:

    \begin{align*}\hat Y &=116.256-0.886 \times 40 \\&=116.256-35.44 \\&=80.816\end{align*}

從計算結果得知,當駕駛者的年齡為40歲時,他平均的行車速度為80.816公里。因此,使用最小平方迴歸線方程式,可以很簡單地進行預測。

最小平方迴歸線使用時的注意事項

透過上面的實例操作可發現最小平方迴歸線的建構並不困難,不過最小平方迴歸線雖然可以很方便地用來進行預測,但在使用時有3點注意事項:

  • 兩變項之間須為線性關係:原則上,變項之間須為線性關係,建構出來的最小平方迴歸線才具有意義;若變項之間不是線性關係,即無法進行準確的預測。
  • 隨機取樣的樣本所建構的最小平方迴歸線才可用來預測:若要運用某一樣本建構出來的最小平方迴歸線至其他群體上,則該樣本在想要被預測的群體裡必須具有代表性,也就是該樣本必須是從想被預測的群體裡隨機抽取出來才可。
  • 僅能在建構出最小平方迴歸線的變項數值範圍內進行預測:例如上面範例的年齡介於20至69歲之間,因為無從得知超過該範圍的年齡是否仍與平均行車速度間呈現線性關係,所以只能使用該範圍內的年齡來進行預測。

雖然最小平方迴歸線方程式可透過紙筆計算取得,但當資料龐大時,這種方式便顯得不切實際,以下示範如何利用軟體來取得最小平方迴歸線方程式。

運用SPSS取得最小平方迴歸線

將上面範例的資料輸入至SPSS資料編輯器裡,資料輸入的方法可以參考SPSS操作環境和資料輸入。輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。

spss menu of linear regression

在「線性迴歸」視窗中,將年齡AGE移至自變數(I)方框,平均行車速度SPEED移至應變數(D)方框中,完成後按下視窗最下方的確定。(SPSS的自變數即為文中的自變項,應變數即為依變項,僅為翻譯和個人習慣用法之不同。)

dialog box of linear regression in spss

SPSS會輸出如下的係數表格,檢視該表格的B欄位,常數116.254為截距,AGE的-.886為斜率,所以最小平方迴歸線方程式為\hat Y_i=116.254-0.886X_i。

spss output of linear regression coefficients

雖然SPSS輸出的截距數值較紙筆計算的結果少了0.002,但此為進位誤差所導致,非計算錯誤。也就是說,SPSS輸出的係數相同於上面紙筆計算的結果。

運用Excel取得最小平方迴歸線

若沒有SPSS或其他統計分析軟體,也可以使用微軟的Excel來取得最小平方迴歸線方程式。首先,將資料輸入至一空白活頁簿中,或利用SPSS的匯出功能將資料轉換成Excel可讀取的資料檔,詳細操作可參考匯出SPSS資料至Excel並繪製盒形圖。

接著,圈選包含AGE和SPEED所有資料的儲存格,再點選Excel功能表的插入 » 插入XY散佈圖或泡泡圖 » 散佈圖,繪製兩變項的散布圖(自變項AGE置於橫座標軸,依變項SPEED置於縱座標軸)。更詳細的散布圖繪製方式,可參考如何繪製散布圖。

用滑鼠在圖形上的任何一處點一下,圖形的右上方會出現3個小圖示。點選最上面的✚圖示,在隨即出現的圖表項目選項中,點選趨勢線 » 其他選項…,帶出「趨勢線格式」視窗。

other options of trendline in excel

在「趨勢線格式」視窗中,選擇線性(L)的趨勢線。此外,勾選視窗最下方的圖表上顯示公式(E)的選項。

showing equation of trendline in excel

經過上述的步驟後,最小平方迴歸線方程式會直接顯示在散布圖裡趨勢線的旁邊,如下圖所示。和SPSS相較之下,用Excel取得最小平方迴歸線方式真地非常簡單、快速。

trendline with equation in excel

不論是紙筆計算或使用軟體,皆可求得最小平方迴歸線方程式。但在資料龐大時,紙筆計算已不切實際,此時可透過SPSS或Excel等軟體,即可快速且簡單地取得所需的結果。

若想探討最小平方迴歸線的預測準確度,可進一步計算估計標準誤。若估計標準誤的數值愈大,代表預測誤差愈大;若數值愈小,則代表預測誤差愈小,詳細的介紹請參考估計標準誤測量預測誤差。

此外,最小平方迴歸線的截距和斜率皆是利用樣本資料計算得來,若想進一步探討自變項對於依變項的預測是否有明顯的幫助,也就是母群體的斜率是否為0,則須進行假設檢定,詳細的說明請參考簡單線性迴歸的假設檢定。

以上為本篇文章對最小平方迴歸線的建構和計算的介紹,希望透過本篇文章,您瞭解了最小平方迴歸線的定義、方程式和計算方法,也學會了利用SPSS和Excel取得最小平方迴歸線方程式的操作方式。

若您喜歡本篇文章,請將本網站加入書籤,作為您的學習資源,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!

標籤: Excel SPSS 不完全關係 估計標準誤 完全關係 截距 散布圖 斜率 最小平方迴歸線 直線方程式 相關 簡單線性迴歸 線性迴歸 迴歸係數 迴歸常數 迴歸線 預測誤差

文章導覽

❮ Previous Post: 黃石湖湖畔的日落時分
Next Post: 斯皮爾曼等級相關係數的意義和計算 ❯

您可能也會喜歡

featured image of standard error of the estimate
估計標準誤測量預測誤差
featured image of relation between regression line and Pearson correlation coefficient
迴歸線和皮爾森積差相關係數間的關係
featured image of prediction intervals for regression
最小平方迴歸線的預測區間計算
featured image of prediction intervals for regression using excel
如何使用Excel計算最小平方迴歸線的預測區間

關於 Dr. Fish

profile picture uploaded on July 5, 2024

喜歡求知和分析,所以一路讀到博士。也喜歡旅行、攝影、料理、看日劇,愛把複雜的思想和事物變簡單,是個有點宅也有點跳TONE的人。

支持 Dr. Fish

本網站經營和文章撰寫皆由Dr. Fish一人完成,投注許多時間和費用。若您喜歡任何一篇文章或覺得文章對您有幫助,請給我一些支持,買杯珍奶給我吧!您的支持不但能給我更多撰寫文章的動力,也可以讓這網站的經營持續下去喔!謝謝!😄

boba-icon
請我喝珍奶!
featured image of spss environment and data entry

下載專區

標準常態分配表

Student's t 分配臨界值表

F分配臨界值表

卡方分配臨界值表

斯皮爾曼等級相關係數臨界值表

Wilcoxon配對符號等級檢定臨界值表

曼–惠特尼U檢定臨界值表

Student化全距分配臨界值表

Dunnett檢定臨界值表(雙尾檢定)

單一樣本z檢定的SPSS語法

關於Dr. Fish漫游社會統計

本網站使用簡單易懂的文字解說社會統計,並示範軟體操作,同時有課後隨筆的分享,希望讀者在學習之餘,也能感受到生活的樂趣。

網站政策

著作權聲明 Copyright Notice
隱私權政策 Privacy Policy
免責聲明  Disclaimer

追蹤我們

Facebook
X(Twitter)

Copyright © 2021-2025 Dr. Fish 漫游社會統計. All rights reserved.