🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址
估計標準誤測量預測誤差
估計標準誤(standard error of estimate)是在最小平方迴歸線(least-squares regression line)建立之後,用來測量預測誤差的一個量化數值。若估計標準誤的數值越大,代表預測誤差越大,預測越沒有信心;相反地,若數值越小,代表預測誤差越小,則預測的準確性越高。
當兩個變項之間為不完全的線性關係,也就是成對的兩變項之數值所構成的點沒有完美地落在同一條直線上時,可以在這些點中畫出一條預測誤差最小化的最小平方迴歸線。只要在知道自變項數值的情況下,就可使用這條最小平方迴歸線來預測依變項的數值。
既然是「預測」,一定會有誤差,而預測誤差的大小即會影響預測的準確程度。因此,最小平方迴歸線建構完成後,可再進一步計算估計標準誤,以便瞭解預測誤差的大小。本篇文章將先介紹估計標準誤的意義和計算方法,再舉一例子說明計算過程,最後示範利用SPSS取得估計標準誤的操作步驟。
估計標準誤的意義和計算
兩變項根據成對數值所構成的點之分布狀況,可分為完全關係和不完全關係。若兩變項之間為完全關係,知道一個變項的數值可以完美地預測另一個變項的數值,不會有預測誤差的問題。然而,若兩變項之間為不完全關係,雖然可藉由最小平方迴歸線的建構,從一個變項去推估或預測另一個變項的數值,但此時就會產生預測誤差,而估計標準誤就是用來瞭解該預測誤差大小的一個量化數值。
若用一個自變項來預測依變項
,讓
代表第
個數值,
、
分別指第
個
和
的數值,
為第
個數值的誤差,
為預測誤差最小化時直線的截距,
為預測誤差最小化時直線的斜率,完整的最小平方迴歸線方程式為:
方程式裡的、
為迴歸常數(regression constant),屬於參數(parameters),透過資料的蒐集可被計算出來,用來解釋變項
和
之間的關係。
從上面的方程式可得出,,而
為第
個
的預測值,可以用符號
來表示,所以
。簡單來說,誤差即為觀察值和預測值之間的差值,且每一個觀察值和其預測值間都會存在預測誤差,下圖裡的藍色虛線就是每一個觀察值的預測誤差。

由於每一個觀察值都有預測誤差,所以估計標準誤就是平均的預測誤差。但預測誤差可能為正數或負數,在正負相抵銷之下,
會等於0。因此,使用與標準差計算相同的概念,計算估計標準誤時,須將每一個預測誤差
平方,相加之後除以
,再開根號。運用此概念,估計標準誤的概念公式如下:
注意上面公式的分子為,因為估計標準誤的計算牽涉到最小平方迴歸線的建構,而該條迴歸線包含兩個參數,分別為截距和斜率,所以用掉了2個自由度(degrees of freedom)。因此,計算估計標準誤時,並非除以樣本總數
,而是除以
。
若要使用上面的概念公式來計算估計標準誤,過程中可能會充斥著小數,容易產生進位誤差,因此可改使用下面的運算公式。讓、
分別為變項
、
的離均差平方和、
為成對的變項
和
數值的交叉乘積和、
為變項
數值的總和、
為變項
數值的總和,估計標準誤的運算公式為:
(1)
瞭解了估計標準誤的計算方法後,下面使用一個例子來說明估計標準誤的計算過程,再示範利用SPSS求得估計標準誤的方法。
估計標準誤的實例計算
假設有一研究想探討駕駛者年齡(AGE)和平均行車速度(SPEED)之間的關聯,年齡為自變項,行車速度為依變項
,共有10位參與者,其資料如下表:

最小平方迴歸線的建構和計算裡已經利用這10位參與者的資料建構出最小平方迴歸線方程式,為。斜率為
,這數值表示當駕駛的年齡增加1歲時,平均行車速度會減少
公里。
接下來,為了計算估計標準誤,先將套用上面公式(1)所需要的資料在如下的表格裡計算出來:

再利用上表中的數值計算出的離均差平方和
與
的離均差平方和
,過程如下:
最後,將、
和上表中的數值帶入估計標準誤的運算公式(1)中,最後的數值取至小數點後第3位,計算過程如下:
計算結果顯示估計標準誤為8.246,數值並沒有很大,代表預測誤差小;若使用最小平方迴歸線進行預測,預測的準確性應該不錯。不過,使用估計標準誤來測量預測誤差時,資料須滿足同質性或變異數同質性的前提假設,才能讓這個數值具有參考的價值,下面來說明這個假設的意義。
同質性或變異數同質性假設
估計標準誤的數值可以作為最小平方迴歸線的預測準確度的參考數值,但使用時有一點注意事項。由於估計標準誤是使用所有變項資料而計算出來的數值,為了使這個數值有意義,資料必須滿足同質性(homoscedasticity)或變異數同質性(homogeneity of variance)的假設。
所謂同質性或變異數同質性,指變項資料的變異不會因為
變項數值的改變而有所不同。換句話說,若將
變項數值劃分成數個不同的部分,每一部分都有相對應的
變項資料,則這些
變項資料的變異會維持相同,如下圖所示。

如果資料違反了同質性或變異數同質性的假設,也就是異質性(heteroscedasticity)或變異數異質性(heterogeneity of variance)的情況,會造成估計標準誤的偏誤或不一致,進而影響迴歸係數的顯著性檢定。因此,在進行任何的資料分析前,建議先繪製散布圖,檢視資料是否滿足統計檢定所需的假設,再進行分析。
運用SPSS取得估計標準誤
將上面範例的資料輸入至SPSS資料編輯器裡,輸入完成後,點選功能表的分析 » 迴歸 » 線性,帶出「線性迴歸」視窗。關於SPSS的資料輸入方法,請參考SPSS操作環境和資料輸入。

在「線性迴歸」視窗裡,將AGE移至自變數(I)方框中,SPEED移至應變數(D)長方框中。完成後,按下視窗最下方的確定。

經過上面的操作步驟,SPSS會輸出一個「Model Summary」表格,估計標準誤即在「Std. Error of the Estimate」欄裡(由於中文翻譯不是很正確,所以這裡放上英文的輸出表格)。該欄顯示估計標準誤為8.246,和紙筆計算得到的結果是相同的。

從上面的示範過程可以發現,利用SPSS取得最小平方迴歸線的估計標準誤可說是相當的簡單,只要資料滿足同質性或變異數同質性的前提假設,這個數值即具有參考的價值。
以上為本篇文章對估計標準誤測量預測誤差的介紹,希望透過本篇文章,您瞭解了估計標準誤的意義、計算方法和變異數同質性假設的意義,也學會了利用SPSS取得估計標準誤的方法。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習資源,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!