Loading [MathJax]/jax/output/HTML-CSS/jax.js

【確率・統計】条件付き確率とベイズの定理

確率・統計

 本記事では、条件付き確率が絡む「ベイズの定理」について解説する。 

 G検定でも頻出の定理だが、参考書では定理だけ示され、導出過程などはすっ飛ばされることが多い。

 本記事では自分が理解した範囲で、条件付き確率の定義からスタートし、導出、応用まで扱う。

広告

条件付き確率

 まずは「条件付き確率」とはそもそも何か、という話から。

 結論から先に述べると、条件付き確率とは下記のようなものだ。

条件付き確率
 2種類の事象AとBが起こる試行があり、事象Bの起こる確率をP(B)、AとBの同時確率をP(AB)としたとき、事象Bが起こるという条件の下で事象Aが起きる条件付き確率P(A|B)は次式で定義される。

P(A|B)=P(AB)P(B)

 表記の仕方にはいくつか種類があり、同時確率P(AB)P(A,B)、条件付き確率を P(A|B)PB(A)と表したりする。

 

 ここで、上式が意味するところをもう少し掘り下げて考えてみる。

  起こりうる全事象の場合の数をX(U)とし、そのうち事象Aが起こる場合の数をX(A)事象Bが起こる場合の数をX(B)事象Aかつ事象Bとなる場合の数をX(AB)とする。

  このとき、試行の結果、事象Aとなる確率P(A)、事象Bとなる確率P(B)、 事象Aかつ事象Bとなる確率P(AB)はそれぞれ次式で与えられる。

P(A)=X(A)X(U)P(B)=X(B)X(U)P(AB)=X(AB)X(U)

  ここで、事象Aが起きる確率を求める際に、「事象Bが起きた上で」という条件を加えることにする。

  すなわち、事象Bが起きた上で事象Aが起きる確率を考えるのである。

  このとき、事象Bが起きていることは既にわかっているので、計算対象を事象Bを含む場合に限定することができる。

  またこのとき、事象Aとなる場合の数は、事象Bかつ事象Aとなる場合の数X(AB)に等しい。

 以上より、事象Bが起きた上で事象Aが起こる確率をP(A|B)とすると、

P(A|B)=X(AB)X(B)

となる。

 よって(5)に(3)、(4)を代入すると、

P(A|B)=P(AB)X(U)P(B)X(U)=P(AB)P(B)

となり、(1)と一致する。

ベイズの定理

 さて準備が整ったところで、ベイズの定理を見てみる。

ベイズの定理
 2種類の事象AとBが起こる試行があり、事象Aの起こる確率をP(A)、事象Bの起こる確率をP(B)、AとBの同時確率をP(AB)、事象Aが起こるという条件の下で事象Bが起きる条件付き確率をP(B|A)としたとき、事象Bが起こるという条件の下で事象Aが起きる条件付き確率P(A|B)は次式で表される。

P(A|B)=P(B|A)P(A)P(B)

 証明は(1)を利用すればよい。

 P(B|A)は(1)より

P(B|A)=P(AB)P(A)

となるため、(3)を変形して(1)に代入すれば(2)となる。

例題1:サイコロ

 ここでまず条件付き確率を扱った例題を解いてみる。

例題1

 一様な6面サイコロを2回振る試行を考える。

 このとき、次の問いに答えよ。

(1) 2回の試行の内のいずれかで5の目が出る確率を求めよ。

(2) 出た目の合計が7であることがわかっているとき、2回の試行の内のいずれかで5の目が出る確率を求めよ。

解説

(1)

 1回目の試行で出た目をj1、2回目の試行で出た目をj2とすると、2回の試行の内のいずれかで5の目が出る事象は(j1,j2)=(1,5),(5,1),(2,5),(5,2),(3,5),(5,3),(4,5),(5,4),(5,5),(6,5),(5,6)の11通りである。

 全事象は36通り存在するため、求める確率は1136となる。

 

(2)

 出た目の合計が7である事象は(j1,j2)=(1,6),(6,1),(2,5),(5,2),(3,4),(4,3)の6通りである。

 これらの内で5の目が出る事象は(j1,j2)=(2,5),(5,2)の2通りであるため、求める確率は26=13より13となる。

 

 本問をベン図で描画すると右図のようになる。

 今回はAが「2回の試行の内のいずれかで5の目が出る事象」、Bが「出た目の合計が7である事象」である。

 

例題2:感染検査

 続いてベイズの定理を利用した、より実践的な例題を扱う。

 頻出なのは以下に示すような、病原菌やウイルスの感染検査の有効性を問う問題だ。

例題2

 母集団に属する人がウイルスAに感染する確率が0.1%であるとする。

 このウイルスAに対する検査が存在し、ウイルスAに感染している人がこの検査を受けると95%の確率で陽性を示し、逆にウイルスAに感染していない人がこの検査を受けると1%の確率で陽性を示すことが分かっている。

 このとき、検査の陽性者が実際にウイルスAに感染している確率を求めよ。

解説

 今回知りたいのは「検査の陽性者の中でのウイルスAの感染者の割合」である。

 よって陽性者を母集団とした感染確率を求めればよく、これは条件付き確率P(|)に他ならない。

 よってベイズの定理より

P(|)=P(|)P()P()

となるため、P(|),P(),P()の3つが分かればP(|)が判明する。

 まずP(|)だが、これはウイルスAの感染者の中で検査結果が陽性になる確率であるため、P(|)=95%=0.95となる。

 続いてP()だが、これは母集団'(全体)に対する感染確率であるためP()=0.1%=0.001となる。

 最後にP()だが、これは母集団(全体)で検査結果が陽性になる確率であるため、感染者でありかつ陽性者である確率P()と、非感染者かつ陽性者である確率P()の総和で表される。

 よって

P()=P()+P()=P(|)P()+P(|)P()((1))=(0.95×0.001)+{0.01×(10.001)}=0.01094

となる。

 以上の結果を(4)に代入すれば

P(|)=0.95×0.0010.01094=0.0868

となり、検査の陽性者が実際にウイルスAに感染している確率は約8.7%となる。

事前確率と事後確率

 ここで先ほどの例題から、ベイズの定理で何ができるのかをもう少し詳しく見ていく。

 問題を解く前に、自分たちが把握していたのは母集団に対する感染確率P()だった。

 このP()を把握した上で、「病気検査を実施して陽性となった」という条件が加わった上での感染確率P(|)を求めるのがこの問題の目的だった。

 これは、条件なしの確率P()新たな情報(条件)が加わり、更新された確率P(|)を求める問題とも言い換えることができる。

 この情報が加わる前の確率P()事前確率、情報が与えられて更新された確率P(|)事後確率と呼ぶ。

広告

終わりに

 事前確率、事後確率、ベイズの定理はG検定でも出題される事項だが、自分の受験時の理解度は中途半端だった。

 ちゃんと理解するにはそれなりに時間をかける必要があったが、わかってくると面白い。

 いっそのこと、高校数学から確率を勉強し直してみるか…?

 

 END

広告

コメント

タイトルとURLをコピーしました