離群值對社會統計分析的影響和察覺方法

離群值（outlier）是一個非常不同於其他資料的數值，也就是說，若跟資料裡其他的數值相比較，離群值為明顯地偏離這些數值的一個數字。在社會統計分析的過程中，若資料裡有離群值的存在，很可能造成偏誤的分析結果，使研究人員做出不正確的研究結論。

離群值的存在可能是因為資料輸入的錯誤或數值確實不同於其他資料，若是資料輸入的錯誤，可以藉由原始資料來源的檢視，例如調查問卷、考卷、觀察數據，修正誤植的資料。若是數值確實不同於其他資料，則須進一步瞭解離群值對分析結果帶來的影響。下面簡單地探討離群值對社會統計分析的影響，並介紹利用 SPSS 察覺離群值的方法。

離群值對社會統計分析的影響
運用 SPSS 察覺離群值的方法
- 圖形繪製
- 標準分數轉換

離群值對社會統計分析的影響

在一組資料裡，離群值是明顯地不同於其他資料的一個數值。假設有30位學生的社會統計學期成績，利用學生編號和成績製作出如下的散布圖，可以清楚地看到編號7的學生成績遠低於其他學生的成績，這位學生的成績即可被視為一個離群值。

研究樣本資料的蒐集主要是為了估計母群體的參數，例如平均數、標準差，當資料裡有離群值存在的時候，母群體參數的估計即可能產生偏誤。描述統計的集中趨勢測量裡最容易受到離群值影響的測量為平均數，以上面30位學生的成績來說，平均數為68.7，但若不包含編號7的學生成績，平均數則變成69.97。關於離群值對集中趨勢測量影響的詳細說明，可以參考集中趨勢的測量。

既然平均數容易受到離群值的影響，藉由離差（一個分數和平均數之間的距離）平方和計算出來的標準差當然也會受到影響。若用上面30位學生的成績來計算，離差平方和為4090.3，但若捨棄編號7的學生成績，離差平方和變成2696.97，而藉此計算出來的標準差分別為11.88和9.81。由此可見，資料裡的離群值可能會造成偏誤的標準差估計。關於標準差計算的詳細說明，可以參考變異性的測量。

進一步來看，抽樣分配（例如平均數抽樣分配）的標準誤是由標準差計算得來，因此當標準差為偏誤的時候，標準誤也會跟著偏誤。由於信賴區間的計算必須使用到標準誤，所以當標準誤為偏誤時，信賴區間也會是偏誤的狀態。關於信賴區間的說明，可以參考信賴區間的意義和計算（σ已知）和小樣本或σ未知的信賴區間之計算。

除此之外，為了推論分析結果至母群體而進行假設檢定時，大多數的統計檢定方法皆需要離差平方和或標準誤來計算檢定統計量和其關聯的機率。當資料裡的離群值造成偏誤的標準誤時，檢定統計量和其關聯的機率也會因此產生偏誤。

由此可見，不論是描述統計或推論統計，離群值都會對統計分析帶來影響，可能造成偏誤的分析結果。這些影響可以歸納成3個面向：

描述統計裡母群體參數的估計，例如平均數、標準差。
抽樣分配的標準誤以及利用標準誤計算而來的信賴區間。
推論統計的假設檢定過程中檢定統計量和其關聯的機率。

因此，在資料整理的階段、尚未進行任何的統計分析前，先瞭解資料的分布情況，探索是否有離群值的存在，將有助於之後分析結果的解釋。為了探索資料的分布，通常可以透過圖形或常態曲線下數值分布的比例，而藉由這些方法也可觀察是否有離群值的存在。

運用 SPSS 察覺離群值的方法

離群值的察覺或發現可以透過圖形或標準分數轉換的方法，若離群值很明顯地不同於其他的數值，利用圖形便可輕易地觀察出來。然而，當離群值和其他數值的關係相對地微妙，較不容易從圖形觀察出來時，可改用數值轉換成標準分數的方法來發現潛在的離群值，下面介紹這兩種察覺的方法。

圖形繪製

離群值的發現通常可以透過圖形，除了上面提到的散布圖外，還可以利用直方圖或盒形圖（盒鬚圖）。以上面30位學生的成績為例，運用 SPSS 繪製出來的直方圖（組距為5）如下圖，首先映入眼簾的即是最左邊、偏離其他組的一支長條，成績遠低於其他人。由於次數為1，代表只有1位學生，不過從直方圖無法看出這位學生的編號。

histogram of 30 scores with an outlier using spss

若您不清楚利用 SPSS 製作直方圖的方法，可以參考直方圖呈現分組分數次數分配。若沒有 SPSS 或其他統計分析軟體，也可以利用微軟的 Excel 來製作，繪製方法可以參考同一篇文章。

如果想知道離群值的編號，可以改使用盒形圖，是另一種呈現資料分布狀況的實用統計圖形。下圖為 SPSS 繪製出來的30位學生成績的盒形圖，下方鬚的最低點下面有一個標示7的 ○ 符號，這是被 SPSS 視為離群值的成績和編號。此時，可以回 SPSS 資料編輯器的資料視圖（data view）頁面，查看這編號的資料，是否有輸入錯誤的問題。

boxplot of 30 scores with an outlier using spss

若您想瞭解盒形圖的意義和繪製方法，可以參考用 SPSS 繪製盒形圖（盒鬚圖）以及匯出 SPSS 資料至 Excel 並繪製盒形圖。

標準分數轉換

如果離群值不像這裡的例子那麼容易從圖形看出來，可以利用原始分數轉換成標準分數的方式來發覺離群值。從標準常態分配表（可以從本網頁右側邊欄的下載專區下載）可以知道在常態分配下，大約5%的分數會大於標準分數1.96和小於-1.96，而大約1%的分數會大於標準分數2.58和小於-2.58。因此，當一個數值的標準分數絕對值大於2.58的時候，就有可能為離群值。關於標準分數的介紹，可以參考標準分數和常態曲線下面積之應用。