常態分配(normal distribution)是行為和社會科學領域裡很重要也是最常使用到的機率分配型態,而象徵著該分配外形的那條曲線即為常態曲線(normal curve)。常態曲線下的面積和平均數、標準差之間有層特殊的關係,也就是曲線下的面積會隨著平均數加減1個、2個和3個標準差而呈現固定的比率分配。
因為常態分配是機率分配的一種,所以在進入常態曲線和曲線下面積的主題前,須先稍微瞭解機率分配的概念。因此,以下將先簡單地說明機率分配的概念,再介紹常態曲線和曲線下的面積。若您只對其中一部分的內容感興趣,也可點選下方的連結,即可直接跳至您想瞭解的內容喔。
簡單的機率分配概念
我們可從次數分配的角度來瞭解機率分配的概念,首先回顧一下次數分配的意義。次數分配是指將數據資料裡所有的數值和每個數值的出現次數顯示出來,通常用表格的方式呈現,可以約略地瞭解數值整體的集中和分散情況。但除了數值實際上出現的次數外,還可以使用另一種方式來思考次數分配,也就是一個數值出現的可能性或機率(probability)。
假設一位研究員想瞭解一份線上問卷填答者的年齡分布情形,得到的次數分配結果如下圖。從圖中可看出,在1000位填答者中,25歲的填答者最多,有77位。此時換個角度來思考,25歲的人填寫該份線上問卷的可能性或機率是多少呢?由於25歲的填答者有77位,樣本裡共有1000位填答者,,所以25歲的人填寫該份線上問卷的可能性或機率為0.077。
再進一步來看,25歲到30歲的人填寫該份線上問卷的可能性或機率有多高呢?上圖中淡藍色的部分即為25歲到30歲的填答者人數,一共有人。因為全部區域的人數共1000人,所以淡藍色的部分占全部區域的比率為:,代表32.8%的問卷填答者為年齡介於25歲到30歲的人。
從上面兩個例子可看出,圖中每一長條的長度和事件發生的機率息息相關,而不是只有呈現出各個年齡層的人數。利用這樣的思維,次數分配可用來瞭解一個數值發生的機率。
理論上,任何分數的分配,都可透過計算特定樣本大小裡的各個數值發生的機率來完成,但這過程相當地複雜和費時。因此,統計學家已找出幾個較常見的分配,並發展出相應的數學公式,即為機率密度函數(probability density function)。利用機率密度函數來運算,橫座標軸(X軸)為變項的數值,縱座標軸(Y軸)為各數值相對應的機率(嚴格來說是密度),藉此畫出來的曲線即為機率分配(probability distribution)。
在眾多的機率分配裡,社會統計中最基礎和最常用的機率分配為常態分配,以下將詳細說明常態曲線的意義和常態曲線下的面積。
常態曲線的意義
在社會和行為科學的領域裡,最常見的一種機率分配就是常態分配。常態分配是指大多數的數值圍繞著中間的平均數而呈現對稱的(symmetrical)分配,離中間越遠,數值變得越少。其特徵是外形很像一座大鐘的曲線,即為常態曲線,也稱為鐘形曲線(bell-shaped curve),圖形如下。
不少社會和行為科學的變項都具有趨近於常態分配的分配型態,例如身高、體重、智力等。此外,很多推論統計的檢定方式所使用的抽樣分配(sampling distribution),當樣本數變得愈大時,其分配也愈趨近於常態分配;而許多推論統計更以抽樣分配須為常態分配作為檢定方法的前提假設。從這幾點可看出,常態分配是社會和行為科學領域裡很重要的一種分配。
常態分配是一個透過數學運算而發展出來的理論上的分配,其公式如下。這個公式看起來不是很友善,除非您有特別的需要,否則不用特地記住喔!
嚴格來說,上面公式裡的是指介於任兩個值的曲線下的面積,但為了方便理解,將其意義簡化為「次數」。理論上,當常態曲線趨近橫座標軸(X軸)的時候,Y的數值會緩慢地改變。雖然曲線會越來越靠近橫座標軸,但是永遠不會碰到,稱為橫座標軸的漸近線。
常態曲線下的面積
在常態分配中,平均數、標準差和曲線下的面積有一層特殊的關係存在。當一組分數呈現常態分配的時候,曲線下面積的分布比率和平均數、標準差之間的關係如下:
- 平均數和大於平均數1個標準差的分數間,涵蓋了34.13%的曲線下面積。
- 大於平均數1個標準差和大於平均數2個標準差的分數間,涵蓋了13.59%的曲線下面積。
- 大於平均數2個標準差和大於平均數3個標準差的分數間,涵蓋了2.15%的曲線下面積。
- 大於平均數3個標準差的分數外,涵蓋了0.13%的曲線下面積。
上述4點的比率相加後,為50%,此部分僅為大於平均數的曲線下面積和。由於常態曲線左右對稱,所以小於平均數的曲線下面積分布和上述4點的比率相同,如下圖所示。
舉例來說,假設有來自於母群體的10,000個分數,且這些分數呈現常態分配,、。在大於平均數的右半側,34.13%曲線下的面積會落在45和51分()之間,13.59%曲線下的面積會落在51和57分()之間,2.15%的曲線下面積落在57和63分()之間,最後0.13%曲線下的面積則會落在63分以上。
同樣地,在小於平均數的左半側,34.13%曲線下的面積落在39()和45分之間,13.59%曲線下的面積落在33()和39分之間,2.15%曲線下的面積落在27()和33分之間,最後0.13%曲線下的面積則會落在27分以下。
若要知道各個區域含有多少個成績,只須將分數的總個數乘以各個區域的百分比即可。透過運算後得到,在大於平均數的右半側,3413個分數()落在45和51分之間,1359個分數()落在51和57分之間,215個分數()落在57和63分之間,最後則有13個分數落在63分以上()。
同樣地,在小於平均數的左半側,3413個分數落在39和45分之間,1359個分數落在33和39分之間,215個分數落在27和33分之間,最後則有13個分數落在27分以下。
上述的平均數、標準差和常態曲線下面積的關係可應用在百分等級或百分位數的計算上,但並非每一個數值都剛好小於或大於平均數1個、2個或3個標準差單位,因此須先將一個數值轉換成標準分數後,才可進一步計算出小於或大於該數值的曲線下面積。關於標準分數的計算和曲線下面積的求得方式,請參考標準分數和常態曲線下面積之應用。
以上為本篇文章對於常態曲線和曲線下面積的介紹,希望透過本篇文章,您瞭解了機率分配的概念、常態曲線的意義以及平均數、標準差和常態曲線下面積之間的關係。
如果您喜歡本篇文章,請將本網站加入書籤,作為您的學習工具,並持續回訪本網站喔!另外,也歡迎您按讚和追蹤我們的Facebook和Twitter專頁喲!