二項分配(binomial distribution)是社會統計裡常見的一種機率分配,用在一連串只有兩種互斥結果的獨立試驗上,而每一個試驗稱作伯努利試驗(Bernoulli trial)。最常見的伯努利試驗為擲硬幣,舉例來說,利用二項分配可以計算出擲5次硬幣出現3個頭像的機率。
再舉個例子,有一份英文小考的試卷內含10題是非題,若一位學生完全沒有讀書,只靠猜測的情況下,10題中答對8題的機率是多少?10題全部答對的機率又是多少?為了解答這些問題,就可利用二項分配。
二項分配是一種間斷分配(discrete distribution),或稱為離散分配,有別於比較常看到的連續分配(continuous distribution),例如平均數抽樣分配、t抽樣分配。例如擲一枚硬幣3次,可能會出現1個、2個或3個頭像,但不會出現2.5個或1.39個頭像;作答小考的10題是非題,可能會答對4題或8題,但不會答對5.74題。
雖然二項分配的概念不困難,卻是推論統計裡機率分配的一個重要基礎。因此,以下將逐一介紹二項分配的定義、二項分配的分布型態以及二項分配的平均數和標準差。若您只對其中一部分的內容感興趣,可點選下方的連結,即可直接跳至您想瞭解的內容喔!
二項分配的定義
二項分配是呈現只有兩種互斥結果的一連串獨立試驗所出現的所有不同結果的機率分配,換句話說,二項分配須滿足下列5個要件:
- 有一連串的個試驗;
- 每個試驗只有兩種可能的結果;
- 每個試驗的兩種可能結果須互斥(mutually exclusive);
- 試驗與試驗的結果之間彼此獨立;
- 任一試驗裡獲得每一可能結果的機率須維持不變。
只要符合這5個要件,二項分配就能夠告訴我們在一連串的個試驗裡,會得到的各種可能結果以及獲得各種結果的機率。
舉個簡單的例子來看,假設一份3題是非題的測驗,若只靠臆測,答對(T)或答錯(F)的機率各為0.5,則這一份測驗的所有可能結果有8種,如下表:
結果 | 第1題 | 第2題 | 第3題 | 答對題數 |
---|---|---|---|---|
1 | T | T | T | 3 |
2 | T | T | F | 2 |
3 | T | F | T | |
4 | F | T | T | |
5 | T | F | F | 1 |
6 | F | T | F | |
7 | F | F | T | |
8 | F | F | F | 0 |
接著,計算在只有機會的影響下,得到各個不同答對題數的機率。若只有機會的影響,得到這8種不同結果的機率應是相同的,所以答對0題、1題、2題和3題的機率如下:
上面答對0題、1題、2題和3題的機率就是猜測3題是非題的二項分配,而從計算結果可以看出,猜對1題或2題的可能性最高,機率為0.375。
將答對0題、1題、2題和3題的機率相加,,得到的機率總和為1,代表這4種結果已經是臆測3題是非題的所有可能的結果。
若從上面提到的二項分配須滿足的5個要件來看,這個機率分配來自於3個連續的試驗(3題是非題),每個試驗只有2種可能的結果(對或錯),這兩種結果互斥(不可能既對又錯),每個試驗和試驗之間彼此獨立,而且每個試驗裡答對或答錯的機率皆維持在0.5。
不過,當連續試驗的次數變得很多時,使用紙筆進行排列組合已變得太費時,甚至不切實際,這時可利用二項分配的公式來計算:
(1)
上面的公式(1)牽涉到階乘的運算,如果您不清楚階乘的意義和計算方法,可以參考社會統計常用的基本數學符號和運算裡的階乘計算說明。嘗試利用公式(1)來計算上面例子裡3題是非題答對1題的機率,、(答對的機率)、(答錯的機率),計算過程如下:
從計算結果可以知道單靠臆測,3題是非題裡答對1題的機率為0.375,和上面使用排列組合後計算得到的結果相同。運用相同的方式,可以逐一計算出3題是非題裡答對0題、2題和3題的機率:
套用公式(1)得到的二項分配結果和上面使用排列組合的方式而計算出的結果完全相同。因此,當試驗次數很多時,可以運用公式(1)來產生二項分配。瞭解了二項分配的定義和產生方法後,接著來看看二項分配的分布型態。
二項分配的分布型態
使用上面3題是非題的例子和已經計算出來的所有可能結果的機率,也就是、時,二項分配的分布型態會是對稱的,如下圖:
若把原本3題的是非題增加為10題,也就是,而且同樣地時,利用上面的二項分配公式(1),可以產生如下表的二項分配:
答對題數 | 機率 |
---|---|
0 | 0.001 |
1 | 0.010 |
2 | 0.044 |
3 | 0.117 |
4 | 0.205 |
5 | 0.246 |
6 | 0.205 |
7 | 0.117 |
8 | 0.044 |
9 | 0.010 |
10 | 0.001 |
Total | 1.000 |
從上表可以看出,若猜測10題是非題,且答對或答錯的機率各為0.5的情況下,猜對5題的可能性最高,機率為0.246。將上表的答對題數和機率製作成如下的圖形,可發現二項分配的分布型態依舊是對稱的。
但答對或成功的機率不一定是0.5,假設有一位學生特別會猜測,猜對的機率高達0.7。同樣是10題是非題()、、的情況下,二項分配不再是對稱的分布型態,而會呈現如下圖的負偏態:
反過來看,若答對或成功的機率偏低,例如5個選項的選擇題,猜對的機率只有0.2,換句話說,猜錯的機率高達0.8。若有10題選擇題,也就是、、時,二項分配也不是對稱的分布型態,而會呈現正偏態,如下圖:
從上面4種情況的二項分配圖形可以發現,二項分配會隨著答對或成功的機率而有不同的分布型態。具體來說,當時,二項分配是對稱的分布型態。但當時,二項分配呈現負偏態;當時,二項分配則呈現正偏態。
換句話說,當和愈偏離0.5的時候,二項分配的偏態程度愈高。不過,不管和的數值為何,當試驗的次數愈多時,二項分配就會愈趨近於常態分配。Howell(2009)指出只要和兩者的數值都大於5的時候,二項分配就會非常接近常態分配,但也有學者指出兩者的數值皆須等於或大於10才接近常態分配(Pagano, 2008)。
二項分配的平均數和標準差
由於二項分配在試驗的次數變得愈多次的時候,會愈趨近於常態分配,可稱為常態逼近(normal approximation),而趨近於常態分配的二項分配可簡單地計算出平均數和標準差兩個參數。
二項分配的平均數等於試驗次數乘以答對或成功的機率,公式如下:
(2)
二項分配的標準差等於試驗次數、答對或成功機率和答錯或失敗機率乘積的平方根,公式為:
(3)
知道二項分配的平均數和標準差很有用,除了可以用在假設檢定外,也可以用來計算獲得某種結果的機率。因為常態逼近的特性,只要將想求得的某種結果換算成標準分數後,查詢標準常態分配表,就可以找到得到某種結果的機率。
舉個例子來看,假設一份社會統計小考問卷有30題是非題,若一位學生完全沒有讀書,也沒有過人的猜測能力(也就是猜對或猜錯的機率皆為0.5),在單靠臆測的情況下,這位學生答對20題以上的機率是多少?
根據題目提供的資訊,、。首先,看看臆測30題是非題的二項分配是否趨近於常態分配:
若採用較為嚴苛的 Pagano(2008)的建議,因為且,所以這個二項分配已經趨近於常態分配。
接著,利用上面的公式(2)和(3)計算這個二項分配的平均數和標準差:
畫出一張如下的常態分配圖形,並標示出平均數(15)和想要求得的數值(20),由於我們想要知道答對20題以上的機率,所以是下圖中的藍色區塊。
為了找到答對20題以上的機率,須先將題數20轉換成標準分數,計算過程如下:
計算結果得到標準分數(z分數)為1.83,再查詢標準常態分配表,上圖中藍色區塊的機率即為下表中的B欄位。從下表可看出,當標準分數為1.83時,等於或大於該標準分數的機率為0.0336。
因此,若單靠臆測,例題中的學生在30題的是非題裡答對20題以上的機率為0.0336,看起來機率滿低的呢,考前讀點書還是比較實在喔!
透過上述的方式,當試驗的次數很多的時候,便可以很簡單地求得想要知道的某種結果的機率,而不需要利用上面二項分配的公式(1)逐一地計算出所有可能結果的機率。
另外,二項分配可以應用在統計檢定方法裡的符號檢定,用來比較2個相依樣本在依變項(需至少為次序測量尺度)的測量上是否有顯著不同,詳細的介紹可以參考符號檢定:使用二項分配進行假設檢定。
以上為本篇文章對二項分配的介紹,希望透過本篇文章,您瞭解了二項分配的定義和分布型態,也學會了如何計算二項分配的平均數和標準差。若您喜歡本篇文章,請將本網站加入書籤,並持續回訪本網站喔!另外,也歡迎您追蹤本網站的 Facebook 和/或 X(Twitter)專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給 Dr. Fish 更多撰寫優質文章的動力喔!
參考資料
Howell, D. C. (2009). Statistical methods for psychology (7th ed.). Belmont, CA: Wadsworth.
Pagano, R. R. (2008). Understanding statistics in the behavioral sciences (9th ed.). Belmont, CA: Wadsworth.