Skip to content

合作邀約 email: dr.fish@drfishstats.com

  • Facebook
  • X
site icon of Dr. Fish

Dr. Fish 漫游社會統計

魚博士的專業漫談和課後隨筆

  • Home
  • 關於 Dr. Fish
  • 統計基礎
    • 入門概念
    • 圖形繪製
    • 描述統計
    • 相關
    • 線性迴歸
  • 統計進階
    • 推論統計
    • 統計檢定
      • 相關係數
      • 迴歸
      • 平均數比較
      • 無母數檢定
  • EXCEL 系列
    • 資料管理
    • 圖形繪製
    • 描述統計
    • 推論統計
  • 下課後
    • 生活
    • 旅遊
      • 日本
    • 美食
    • 攝影
  • 聯絡 Dr. Fish
  • Home
  • 線性迴歸
  • 估計標準誤測量預測誤差

🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址

估計標準誤測量預測誤差

Posted on 2021-09-242023-04-10 Updated on 2023-04-102023-04-10 By Dr. Fish
線性迴歸

估計標準誤(standard error of estimate)是在最小平方迴歸線(least-squares regression line)建立之後,用來測量預測誤差的一個量化數值。若估計標準誤的數值越大,代表預測誤差越大,預測越沒有信心;相反地,若數值越小,代表預測誤差越小,則預測的準確性越高。

當兩個變項之間為不完全的線性關係,也就是成對的兩變項之數值所構成的點沒有完美地落在同一條直線上時,可以在這些點中畫出一條預測誤差最小化的最小平方迴歸線。只要在知道自變項數值的情況下,就可使用這條最小平方迴歸線來預測依變項的數值。

既然是「預測」,一定會有誤差,而預測誤差的大小即會影響預測的準確程度。因此,最小平方迴歸線建構完成後,可再進一步計算估計標準誤,以便瞭解預測誤差的大小。本篇文章將先介紹估計標準誤的意義和計算方法,再舉一例子說明計算過程,最後示範利用SPSS取得估計標準誤的操作步驟。

  • 估計標準誤的意義和計算
  • 估計標準誤的實例計算
  • 同質性或變異數同質性假設
  • 運用SPSS取得估計標準誤

估計標準誤的意義和計算

兩變項根據成對數值所構成的點之分布狀況,可分為完全關係和不完全關係。若兩變項之間為完全關係,知道一個變項的數值可以完美地預測另一個變項的數值,不會有預測誤差的問題。然而,若兩變項之間為不完全關係,雖然可藉由最小平方迴歸線的建構,從一個變項去推估或預測另一個變項的數值,但此時就會產生預測誤差,而估計標準誤就是用來瞭解該預測誤差大小的一個量化數值。

若用一個自變項X來預測依變項Y,讓i代表第i個數值,Y_i、X_i分別指第i個Y和X的數值,e_i為第i個數值的誤差,a為預測誤差最小化時直線的截距,b為預測誤差最小化時直線的斜率,完整的最小平方迴歸線方程式為:

    \[ Y_i=a+bX_i+e_i \]

方程式裡的a、b為迴歸常數(regression constant),屬於參數(parameters),透過資料的蒐集可被計算出來,用來解釋變項X和Y之間的關係。

從上面的方程式可得出,e_i=Y_i-(a+bX_i),而a+bX_i為第i個Y的預測值,可以用符號\hat Y_i來表示,所以e_i=Y_i-\hat Y_i。簡單來說,誤差即為觀察值和預測值之間的差值,且每一個觀察值和其預測值間都會存在預測誤差,下圖裡的藍色虛線就是每一個觀察值的預測誤差。

prediction errors in regression

由於每一個觀察值都有預測誤差,所以估計標準誤就是平均的預測誤差。但預測誤差(Y_i-\hat Y_i)可能為正數或負數,在正負相抵銷之下,\sum (Y_i-\hat Y_i)會等於0。因此,使用與標準差計算相同的概念,計算估計標準誤時,須將每一個預測誤差(Y_i-\hat Y_i)平方,相加之後除以N-2,再開根號。運用此概念,估計標準誤的概念公式如下:

    \[ s_e=\sqrt {\frac {\sum_{i=1}^n (Y_i-\hat Y_i)^2}{N-2}} \]

注意上面公式的分子為N-2,因為估計標準誤的計算牽涉到最小平方迴歸線的建構,而該條迴歸線包含兩個參數,分別為截距和斜率,所以用掉了2個自由度(degrees of freedom)。因此,計算估計標準誤時,並非除以樣本總數N,而是除以N-2。

若要使用上面的概念公式來計算估計標準誤,過程中可能會充斥著小數,容易產生進位誤差,因此可改使用下面的運算公式。讓SS_X、SS_Y分別為變項X、Y的離均差平方和、\sum XY為成對的變項X和Y數值的交叉乘積和、\sum X為變項X數值的總和、\sum Y為變項Y數值的總和,估計標準誤的運算公式為:

(1)   \begin{equation*}s_e=\sqrt {\frac {SS_Y- \dfrac { \left [ \sum XY- \dfrac {(\sum X)(\sum Y)}{N} \right ]^2}{SS_X}}{N-2}}\end{equation*}

瞭解了估計標準誤的計算方法後,下面使用一個例子來說明估計標準誤的計算過程,再示範利用SPSS求得估計標準誤的方法。

估計標準誤的實例計算

假設有一研究想探討駕駛者年齡(AGE)和平均行車速度(SPEED)之間的關聯,年齡為自變項X,行車速度為依變項Y,共有10位參與者,其資料如下表:

example of pearson r

最小平方迴歸線的建構和計算裡已經利用這10位參與者的資料建構出最小平方迴歸線方程式,為\hat Y_i=116.256-0.886X_i。斜率為-0.886,這數值表示當駕駛的年齡增加1歲時,平均行車速度會減少0.886公里。

接下來,為了計算估計標準誤,先將套用上面公式(1)所需要的資料在如下的表格裡計算出來:

computation of pearson r example

再利用上表中的數值計算出X的離均差平方和SS_X與Y的離均差平方和SS_Y,過程如下:

    \begin{equation*}\begin{align}SS_X &=\sum (X-\overline X)^2 \\&=\sum X^2-\frac {(\sum X)^2}{N} \\&=21894-\frac {444^2}{10} \\&=2180.4 \\SS_Y &=\sum (Y-\overline Y)^2 \\&=\sum Y^2-\frac {(\sum Y)^2}{N} \\&=61393-\frac {769^2}{10} \\&=2256.9\end{align}\end{equation*}

最後,將SS_X、SS_Y和上表中的數值帶入估計標準誤的運算公式(1)中,最後的數值取至小數點後第3位,計算過程如下:

    \begin{equation*}\begin{align}s_e &= \sqrt {\frac {SS_Y- \dfrac { \left [ \sum XY- \dfrac {(\sum X)(\sum Y)}{N} \right ]^2}{SS_X}}{N-2}} \\&=\sqrt {\frac {2256.9- \dfrac { \left ( 32211- \dfrac {444 \times 769}{10} \right )^2}{2180.4}}{10-2}} \\&=\sqrt {\frac {2256.9- \dfrac {(32211-34143.6)^2}{2180.4}}{8}} \\&\approx \sqrt {\frac {2256.9-1712.96219}{8}} \\&\approx \sqrt {67.99223} \\&\approx 8.246\end{align}\end{equation*}

計算結果顯示估計標準誤s_e為8.246,數值並沒有很大,代表預測誤差小;若使用最小平方迴歸線進行預測,預測的準確性應該不錯。不過,使用估計標準誤來測量預測誤差時,資料須滿足同質性或變異數同質性的前提假設,才能讓這個數值具有參考的價值,下面來說明這個假設的意義。

同質性或變異數同質性假設

估計標準誤的數值可以作為最小平方迴歸線的預測準確度的參考數值,但使用時有一點注意事項。由於估計標準誤是使用所有Y變項資料而計算出來的數值,為了使這個數值有意義,資料必須滿足同質性(homoscedasticity)或變異數同質性(homogeneity of variance)的假設。

所謂同質性或變異數同質性,指Y變項資料的變異不會因為X變項數值的改變而有所不同。換句話說,若將X變項數值劃分成數個不同的部分,每一部分都有相對應的Y變項資料,則這些Y變項資料的變異會維持相同,如下圖所示。

assumption of homoscedasticity in regression

如果資料違反了同質性或變異數同質性的假設,也就是異質性(heteroscedasticity)或變異數異質性(heterogeneity of variance)的情況,會造成估計標準誤的偏誤或不一致,進而影響迴歸係數的顯著性檢定。因此,在進行任何的資料分析前,建議先繪製散布圖,檢視資料是否滿足統計檢定所需的假設,再進行分析。

運用SPSS取得估計標準誤

將上面範例的資料輸入至SPSS資料編輯器裡,輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。關於SPSS的資料輸入方法,請參考SPSS操作環境和資料輸入。

spss menu of linear regression

在「線性迴歸」視窗裡,將AGE移至自變數(I)方框中,SPEED移至應變數(D)長方框中。完成後,按下視窗最下方的確定。

dialog box of linear regression in spss

經過上面的操作步驟,SPSS會輸出一個「Model Summary」表格,估計標準誤即在「Std. Error of the Estimate」欄裡(由於中文翻譯不是很正確,所以這裡放上英文的輸出表格)。該欄顯示估計標準誤為8.246,和紙筆計算得到的結果是相同的。

spss output of standard error of the estimate

從上面的示範過程可以發現,利用SPSS取得最小平方迴歸線的估計標準誤可說是相當的簡單,只要資料滿足同質性或變異數同質性的前提假設,這個數值即具有參考的價值。

以上為本篇文章對估計標準誤測量預測誤差的介紹,希望透過本篇文章,您瞭解了估計標準誤的意義、計算方法和變異數同質性假設的意義,也學會了利用SPSS取得估計標準誤的方法。

若您喜歡本篇文章,請將本網站加入書籤,作為您的學習資源,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!

標籤: SPSS 不完全關係 估計標準誤 參數 同質性 完全關係 散布圖 最小平方迴歸線 標準差 異質性 自由度 變異數同質性 變異數異質性 迴歸常數 離差平方和 預測誤差 顯著性檢定

文章導覽

❮ Previous Post: 肯德爾等級相關係數的意義和計算
Next Post: 平均數抽樣分配的定義和特性 ❯

您可能也會喜歡

featured image of relation between regression line and Pearson correlation coefficient
迴歸線和皮爾森積差相關係數間的關係
featured image of least-squares regression line
最小平方迴歸線的建構和計算
featured image of prediction intervals for regression using excel
如何使用Excel計算最小平方迴歸線的預測區間
featured image of prediction intervals for regression
最小平方迴歸線的預測區間計算

關於 Dr. Fish

profile picture uploaded on July 5, 2024

喜歡求知和分析,所以一路讀到博士。也喜歡旅行、攝影、料理、看日劇,愛把複雜的思想和事物變簡單,是個有點宅也有點跳 TONE 的人。

支持 Dr. Fish

本網站經營和文章撰寫皆由 Dr. Fish 一人完成,投注許多時間和費用。若您喜歡任何一篇文章或覺得文章對您有幫助,請給我一些支持,買杯珍奶給我吧!您的支持不但能給我更多撰寫文章的動力,也可以讓這網站的經營持續下去喔!謝謝!😄

boba-icon
請我喝珍奶!
featured image of spss environment and data entry

下載專區

標準常態分配表

Student's t 分配臨界值表

F分配臨界值表

卡方分配臨界值表

斯皮爾曼等級相關係數臨界值表

Wilcoxon 配對符號等級檢定臨界值表

曼–惠特尼U檢定臨界值表

Student 化全距分配臨界值表

Dunnett 檢定臨界值表(雙尾檢定)

單一樣本z檢定的 SPSS 語法

關於 Dr. Fish 漫游社會統計

本網站使用簡單易懂的文字解說社會統計,並示範軟體操作,同時有課後隨筆的分享,希望讀者在學習之餘,也能感受到生活的樂趣。

網站政策

著作權聲明 Copyright Notice
隱私權政策 Privacy Policy
免責聲明  Disclaimer

追蹤網站

Facebook
X(Twitter)

Copyright © 2021-2025 Dr. Fish 漫游社會統計. All rights reserved.