🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址
離群值對社會統計分析的影響和察覺方法
離群值(outlier)是一個非常不同於其他資料的數值,也就是說,若跟資料裡其他的數值相比較,離群值為明顯地偏離這些數值的一個數字。在社會統計分析的過程中,若資料裡有離群值的存在,很可能造成偏誤的分析結果,使研究人員做出不正確的研究結論。
離群值的存在可能是因為資料輸入的錯誤或數值確實不同於其他資料,若是資料輸入的錯誤,可以藉由原始資料來源的檢視,例如調查問卷、考卷、觀察數據,修正誤植的資料。若是數值確實不同於其他資料,則須進一步瞭解離群值對分析結果帶來的影響。下面簡單地探討離群值對社會統計分析的影響,並介紹利用 SPSS 察覺離群值的方法。
離群值對社會統計分析的影響
在一組資料裡,離群值是明顯地不同於其他資料的一個數值。假設有30位學生的社會統計學期成績,利用學生編號和成績製作出如下的散布圖,可以清楚地看到編號7的學生成績遠低於其他學生的成績,這位學生的成績即可被視為一個離群值。

研究樣本資料的蒐集主要是為了估計母群體的參數,例如平均數、標準差,當資料裡有離群值存在的時候,母群體參數的估計即可能產生偏誤。描述統計的集中趨勢測量裡最容易受到離群值影響的測量為平均數,以上面30位學生的成績來說,平均數為68.7,但若不包含編號7的學生成績,平均數則變成69.97。關於離群值對集中趨勢測量影響的詳細說明,可以參考集中趨勢的測量。
既然平均數容易受到離群值的影響,藉由離差(一個分數和平均數之間的距離)平方和計算出來的標準差當然也會受到影響。若用上面30位學生的成績來計算,離差平方和為4090.3,但若捨棄編號7的學生成績,離差平方和變成2696.97,而藉此計算出來的標準差分別為11.88和9.81。由此可見,資料裡的離群值可能會造成偏誤的標準差估計。關於標準差計算的詳細說明,可以參考變異性的測量。
進一步來看,抽樣分配(例如平均數抽樣分配)的標準誤是由標準差計算得來,因此當標準差為偏誤的時候,標準誤也會跟著偏誤。由於信賴區間的計算必須使用到標準誤,所以當標準誤為偏誤時,信賴區間也會是偏誤的狀態。關於信賴區間的說明,可以參考信賴區間的意義和計算(σ已知)和小樣本或σ未知的信賴區間之計算。
除此之外,為了推論分析結果至母群體而進行假設檢定時,大多數的統計檢定方法皆需要離差平方和或標準誤來計算檢定統計量和其關聯的機率。當資料裡的離群值造成偏誤的標準誤時,檢定統計量和其關聯的機率也會因此產生偏誤。
由此可見,不論是描述統計或推論統計,離群值都會對統計分析帶來影響,可能造成偏誤的分析結果。這些影響可以歸納成3個面向:
- 描述統計裡母群體參數的估計,例如平均數、標準差。
- 抽樣分配的標準誤以及利用標準誤計算而來的信賴區間。
- 推論統計的假設檢定過程中檢定統計量和其關聯的機率。
因此,在資料整理的階段、尚未進行任何的統計分析前,先瞭解資料的分布情況,探索是否有離群值的存在,將有助於之後分析結果的解釋。為了探索資料的分布,通常可以透過圖形或常態曲線下數值分布的比例,而藉由這些方法也可觀察是否有離群值的存在。
運用 SPSS 察覺離群值的方法
離群值的察覺或發現可以透過圖形或標準分數轉換的方法,若離群值很明顯地不同於其他的數值,利用圖形便可輕易地觀察出來。然而,當離群值和其他數值的關係相對地微妙,較不容易從圖形觀察出來時,可改用數值轉換成標準分數的方法來發現潛在的離群值,下面介紹這兩種察覺的方法。
圖形繪製
離群值的發現通常可以透過圖形,除了上面提到的散布圖外,還可以利用直方圖或盒形圖(盒鬚圖)。以上面30位學生的成績為例,運用 SPSS 繪製出來的直方圖(組距為5)如下圖,首先映入眼簾的即是最左邊、偏離其他組的一支長條,成績遠低於其他人。由於次數為1,代表只有1位學生,不過從直方圖無法看出這位學生的編號。

若您不清楚利用 SPSS 製作直方圖的方法,可以參考直方圖呈現分組分數次數分配。若沒有 SPSS 或其他統計分析軟體,也可以利用微軟的 Excel 來製作,繪製方法可以參考同一篇文章。
如果想知道離群值的編號,可以改使用盒形圖,是另一種呈現資料分布狀況的實用統計圖形。下圖為 SPSS 繪製出來的30位學生成績的盒形圖,下方鬚的最低點下面有一個標示7的 ○ 符號,這是被 SPSS 視為離群值的成績和編號。此時,可以回 SPSS 資料編輯器的資料視圖(data view)頁面,查看這編號的資料,是否有輸入錯誤的問題。

若您想瞭解盒形圖的意義和繪製方法,可以參考用 SPSS 繪製盒形圖(盒鬚圖)以及匯出 SPSS 資料至 Excel 並繪製盒形圖。
標準分數轉換
如果離群值不像這裡的例子那麼容易從圖形看出來,可以利用原始分數轉換成標準分數的方式來發覺離群值。從標準常態分配表(可以從本網頁右側邊欄的下載專區下載)可以知道在常態分配下,大約5%的分數會大於標準分數1.96和小於-1.96,而大約1%的分數會大於標準分數2.58和小於-2.58。因此,當一個數值的標準分數絕對值大於2.58的時候,就有可能為離群值。關於標準分數的介紹,可以參考標準分數和常態曲線下面積之應用。

利用此方法須先將數值轉換成標準分數,在 SPSS 資料編輯器頁面點選功能表的分析 » 敘述統計 » 敘述統計,帶出「敘述統計」視窗。如果您不熟悉 SPSS 的操作環境和方法,可以參考 SPSS 操作環境和資料輸入或直接點選本網站右側邊欄的圖示。

在「敘述統計」視窗裡,將要轉換成標準分數的變項從左邊的變項清單移到變數(V)方框裡,這裡為學生的分數 SCORE,勾選將標準化值存成變數(Z),完成後點選視窗下方的確定。

經過上面的步驟,在資料編輯器的資料視圖頁面會新增一個 ZSCORE 變項,這就是原本數值轉換後的標準分數。

由於常態分配為兩側對稱,例如大於標準分數1.96和小於標準分數-1.96的常態曲線下面積是相同的,所以可先將新增的變項 ZSCORE 取絕對值,讓接下來的重新編碼操作變得更簡單。在資料編輯器的頁面,點選功能表的檔案 » 新建 » 語法,開啟一個新的語法編輯器視窗,在視窗裡輸入下面的語法:
COMPUTE ABSZSC = ABS(ZSCORE).
EXECUTE.
這語法要求計算 ZSCORE 的絕對值,並另外儲存成名稱為 ABSZSC 的變項。執行這個語法後,資料編輯器的資料視圖頁面會新增一個 ABSZSC 變項。

接著,利用上面提到的常態曲線下面積所對應的標準分數1.96和2.58,將變項 ABSZSC 重新編碼成3個類別。在語法編輯器裡輸入下面的語法:
RECODE ABSZSC (LOWEST THRU 1.95 = 1) (1.96 THRU 2.57 = 2) (2.58 THRU HIGHEST = 3) INTO CATABSZ.
EXECUTE.
這語法要求重新編碼標準分數的絕對值:編碼1為最小值到1.95,編碼2為1.96到2.57,編碼3為2.58到最大值,並將重新編碼後的數值儲存成名稱為 CATABSZ 的變項。執行這個語法後,資料編輯器的資料視圖頁面會新增一個 CATABSZ 變項。

為了讓重新編碼後的3個類別所代表的內容更容易理解,可以運用編碼值標籤(VALUE LABELS)的指令在語法編輯器裡輸入下面的語法:
VALUE LABELS CATABSZ 1 ‘Z < 1.96’ 2 ‘1.96 <= Z < 2.58’ 3 ‘Z >= 2.58’.
EXECUTE.
執行這個語法後,點選資料編輯器功能表的分析 » 敘述統計 » 次數分配表,在隨即出現的「次數分配表」視窗裡,將左側變項清單裡的 CATABSZ 移至右側的變數(V)方框裡,勾選視窗下方的顯示次數分配表(D),再點選確定。

經過上面的步驟,SPSS 會輸出如下的次數分配表。從下表可以看到,有一個分數的標準分數絕對值大於2.58,這個分數即有可能為離群值。

如果想知道這個疑似離群值的學生編號,在樣本數不大的時候,可以返回資料編輯器的資料視圖頁面直接尋找。但當樣本數較大的時候,則可在語法編輯器裡輸入下面的語法:
SELECT IF (CATABSZ = 3).
LIST VARIABLES = ID.
這語法要求挑選變項 CATABSZ 的值等於3的學生,也就是標準分數等於或大於2.58的成績,並列出這位學生的編號。執行這個語法後,SPSS 會輸出下面的訊息,指出這位學生的編號為7。

簡單來說,離群值的發現可以透過圖形或標準分數的轉換。若離群值大大地偏離其他數值,透過散布圖、直方圖或盒形圖便能夠輕易地觀察出來。若離群值不易從圖形看出來,則可藉由數值轉換成標準分數的方式來察覺,只不過這種方法須撰寫語法,有些人可能較不習慣。
以上為本篇文章對離群值的介紹,希望透過本篇文章,您瞭解了離群值對社會統計分析的數個影響,也學會了運用 SPSS 察覺離群值的方法。若您喜歡本篇文章,請將本網站加入書籤,並隨時回訪本網站喔!另外,也歡迎您追蹤本網站的 Facebook 和/或 X(Twitter)專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給 Dr. Fish 更多撰寫優質文章的動力喔!



