二項分配的定義和分布型態

二項分配（binomial distribution）是社會統計裡常見的一種機率分配，用在一連串只有兩種互斥結果的獨立試驗上，而每一個試驗稱作伯努利試驗（Bernoulli trial）。最常見的伯努利試驗為擲硬幣，舉例來說，利用二項分配可以計算出擲5次硬幣出現3個頭像的機率。

再舉個例子，有一份英文小考的試卷內含10題是非題，若一位學生完全沒有讀書，只靠猜測的情況下，10題中答對8題的機率是多少？10題全部答對的機率又是多少？為了解答這些問題，就可利用二項分配。

二項分配是一種間斷分配（discrete distribution），或稱為離散分配，有別於比較常看到的連續分配（continuous distribution），例如平均數抽樣分配、ｔ抽樣分配。例如擲一枚硬幣3次，可能會出現1個、2個或3個頭像，但不會出現2.5個或1.39個頭像；作答小考的10題是非題，可能會答對4題或8題，但不會答對5.74題。

雖然二項分配的概念不困難，卻是推論統計裡機率分配的一個重要基礎。因此，以下將逐一介紹二項分配的定義、二項分配的分布型態以及二項分配的平均數和標準差。由於下面內容涉及基本的機率概念和計算，若您不熟悉機率，建議可先閱讀社會統計基礎的機率認識【定義和專有名詞篇】和社會統計基礎的機率認識【運算規則篇】，將有助於文章內容的理解喔！

二項分配的定義
二項分配的分布型態
二項分配的平均數和標準差

二項分配的定義

二項分配是呈現只有兩種互斥結果的一連串獨立試驗所出現的所有不同結果的機率分配，換句話說，二項分配須滿足下列5個要件：

有一連串的 $N$ 個試驗；
每個試驗只有兩種可能的結果；
每個試驗的兩種可能結果須互斥（mutually exclusive）；
試驗與試驗的結果之間彼此獨立；
任一試驗裡獲得每一可能結果的機率須維持不變。

只要符合這5個要件，二項分配就能夠告訴我們在一連串的 $N$ 個試驗裡，會得到的各種可能結果以及獲得各種結果的機率。

舉個簡單的例子來看，假設一份3題是非題的測驗，若只靠臆測，答對（T）或答錯（F）的機率各為0.50，則這一份測驗的所有可能結果有8種，如下表：

結果	第1題	第2題	第3題	答對題數
1	T	T	T	3
2	T	T	F	2
3	T	F	T
4	F	T	T
5	T	F	F	1
6	F	T	F
7	F	F	T
8	F	F	F	0

接著，計算在只有機會的影響下，得到各個不同答對題數的機率。若只有機會的影響，得到這8種不同結果的機率應是相同的，所以答對0題、1題、2題和3題的機率如下：

$\begin{equation*}\begin{CJK*}{UTF8}{bsmi}\begin{align*}p(\text {答對0題}) = \frac {\text {答對0題的結果}}{\text {所有的結果}} = \frac {1}{8} = 0.1250 \\[10pt]p(\text {答對1題}) = \frac {\text {答對1題的結果}}{\text {所有的結果}} = \frac {3}{8} = 0.3750 \\[10pt]p(\text {答對2題}) = \frac {\text {答對2題的結果}}{\text {所有的結果}} = \frac {3}{8} = 0.3750 \\[10pt]p(\text {答對3題}) = \frac {\text {答對3題的結果}}{\text {所有的結果}} = \frac {1}{8} = 0.1250 \\\end{align*}\end{CJK*}\end{equation*}$

上面答對0題、1題、2題和3題的機率就是猜測3題是非題的二項分配，而從計算結果可以看出，猜對1題或2題的可能性最高，機率為0.3750。

將答對0題、1題、2題和3題的機率相加， $0.1250+0.3750+0.3750+0.1250=1$ ，得到的機率總和為1，代表這4種結果已經是臆測3題是非題的所有可能的結果。

若從上面提到的二項分配須滿足的5個要件來看，這個機率分配來自於3個連續的試驗（3題是非題），每個試驗只有2種可能的結果（對或錯），這兩種結果互斥（不可能既對又錯），每個試驗和試驗之間彼此獨立，而且每個試驗裡答對或答錯的機率皆維持在0.50。

不過，當連續試驗的次數變得很多時，使用紙筆運算已變得太費時，甚至不切實際，這時可利用二項分配的公式來計算：

(1) $\begin{align*}p(X) &= C_X^N p^X q^{N-X} \\[5pt]&= \frac {N!}{X!(N-X)!} p^X q^{N-X}\end{align*}$

$\begin{equation*}\begin{CJK*}{UTF8}{bsmi}\begin{align*}X &= \text {想要獲得的結果數目} \\p(X) &= \text {想要獲得的結果數目之機率} \\N &= \text {試驗的次數} \\C_X^N &= \text {$N$次試驗裡得到$X$結果的組合數目} \\p &= \text {任一試驗裡成功的、正面的或對的機率} \\q &= \text {任一試驗裡失敗的、負面的或錯的機率，} q=1-p \\! &= \text {階乘符號}\end{align*}\end{CJK*}\end{equation*}$

上面的公式(1)牽涉到階乘的運算，如果您不清楚階乘的意義和計算方法，可以參考社會統計常用的基本數學符號和運算裡的階乘計算說明。嘗試利用公式(1)來計算上面例子裡3題是非題答對1題的機率， $N=3$ 、 $p=0.50$ （答對的機率）、 $q=0.50$ （答錯的機率），計算過程如下：

$\begin{align*}p(\text {1 True}) &= \frac {3!}{1!(3-1)!} (0.50)^1 (0.50)^{3-1} \\[5pt]&= \frac {3 \times 2 \times 1}{1 \times (2 \times 1)} (0.50) (0.50)^2 \\[5pt]&= 3 \times (0.50)^3 \\[5pt]&= 0.3750\end{align*}$

從計算結果可以知道單靠臆測，3題是非題裡答對1題的機率為0.3750，和上面使用紙筆計算得到的結果是相同的。運用相同的方式，可以逐一計算出3題是非題裡答對0題、2題和3題的機率：

$\begin{align*}p(\text {0 True}) &= \frac {3!}{0!(3-0)!} (0.50)^0 (0.50)^{3-0}=0.1250 \\[5pt]p(\text {2 True}) &= \frac {3!}{2!(3-2)!} (0.50)^2 (0.50)^{3-2}=0.3750 \\[5pt]p(\text {3 True}) &= \frac {3!}{3!(3-3)!} (0.50)^3 (0.50)^{3-3}=0.1250\end{align*}$

套用公式(1)得到的二項分配結果和上面使用紙筆計算的方式而計算出的結果完全相同。因此，當試驗次數很多時，可以運用公式(1)來產生二項分配。瞭解了二項分配的定義和產生方法後，接著來看看二項分配的分布型態。

二項分配的分布型態

使用上面3題是非題的例子和已經計算出來的所有可能結果的機率，也就是 $N=3$ 、 $p=q=0.50$ 時，二項分配的分布型態會是對稱的，如下圖：

binomial distribution for 3 true or false questions

若把原本3題的是非題增加為10題，也就是 $N=10$ ，而且同樣地 $p=q=0.50$ 時，利用上面的二項分配公式(1)，可以產生如下表的二項分配：

答對題數	機率
0	0.0010
1	0.0100
2	0.0440
3	0.1170
4	0.2050
5	0.2460
6	0.2050
7	0.1170
8	0.0440
9	0.0100
10	0.0010
Total	1.0000

從上表可以看出，若猜測10題是非題，且答對或答錯的機率各為0.50的情況下，猜對5題的可能性最高，機率為0.2460。將上表的答對題數和機率製作成如下的圖形，可發現二項分配的分布型態依舊是對稱的。

binomial distribution for 10 true or false questions

但答對或成功的機率不一定是0.50，假設有一位學生特別會猜測，猜對的機率高達0.70。同樣是10題是非題（ $N=10$ ）、 $p=0.70$ 、 $q=1-p=0.30$ 的情況下，二項分配不再是對稱的分布型態，而會呈現如下圖的負偏態：

binomial distribution for N=10 and p=0.7

反過來看，若答對或成功的機率偏低，例如5個選項的選擇題，猜對的機率只有0.20，換句話說，猜錯的機率高達0.80。若有10題選擇題，也就是 $N=10$ 、 $p=0.20$ 、 $q=0.80$ 時，二項分配也不是對稱的分布型態，而會呈現正偏態，如下圖：

binomial distribution for N=10 and p=0.2

從上面4種情況的二項分配圖形可以發現，二項分配會隨著答對或成功的機率 $p$ 而有不同的分布型態。具體來說，當 $p=0.50$ 時，二項分配是對稱的分布型態。但當 $p>0.50$ 時，二項分配呈現負偏態；當 $p<0.50$ 時，二項分配則呈現正偏態。

換句話說，當 $p$ 和 $q$ 愈偏離0.50的時候，二項分配的偏態程度愈高。不過，不管 $p$ 和 $q$ 的數值為何，當試驗 $N$ 的次數愈多時，二項分配就會愈趨近於常態分配。Howell（2009）指出只要 $Np$ 和 $Nq$ 兩者的數值都大於5的時候，二項分配就會非常接近常態分配，但也有學者指出兩者的數值皆須等於或大於10才接近常態分配（Pagano, 2008）。