本記事では、条件付き確率が絡む「ベイズの定理」について解説する。
G検定でも頻出の定理だが、参考書では定理だけ示され、導出過程などはすっ飛ばされることが多い。
本記事では自分が理解した範囲で、条件付き確率の定義からスタートし、導出、応用まで扱う。
条件付き確率
まずは「条件付き確率」とはそもそも何か、という話から。
結論から先に述べると、条件付き確率とは下記のようなものだ。
条件付き確率
2種類の事象AとBが起こる試行があり、事象Bの起こる確率をP(B)、AとBの同時確率をP(A∩B)としたとき、事象Bが起こるという条件の下で事象Aが起きる条件付き確率P(A|B)は次式で定義される。
P(A|B)=P(A∩B)P(B)
表記の仕方にはいくつか種類があり、同時確率P(A∩B)をP(A,B)、条件付き確率を P(A|B) を PB(A)と表したりする。
ここで、上式が意味するところをもう少し掘り下げて考えてみる。
起こりうる全事象の場合の数をX(U)とし、そのうち事象Aが起こる場合の数をX(A)、事象Bが起こる場合の数をX(B)、事象Aかつ事象Bとなる場合の数をX(A∩B)とする。
このとき、試行の結果、事象Aとなる確率P(A)、事象Bとなる確率P(B)、 事象Aかつ事象Bとなる確率P(A∩B)はそれぞれ次式で与えられる。

P(A)=X(A)X(U)P(B)=X(B)X(U)P(A∩B)=X(A∩B)X(U)
ここで、事象Aが起きる確率を求める際に、「事象Bが起きた上で」という条件を加えることにする。
すなわち、事象Bが起きた上で事象Aが起きる確率を考えるのである。
このとき、事象Bが起きていることは既にわかっているので、計算対象を事象Bを含む場合に限定することができる。
またこのとき、事象Aとなる場合の数は、事象Bかつ事象Aとなる場合の数X(A∩B)に等しい。

以上より、事象Bが起きた上で事象Aが起こる確率をP(A|B)とすると、
P(A|B)=X(A∩B)X(B)
となる。
よって(5)に(3)、(4)を代入すると、
P(A|B)=P(A∩B)X(U)P(B)X(U)=P(A∩B)P(B)
となり、(1)と一致する。
ベイズの定理
さて準備が整ったところで、ベイズの定理を見てみる。
ベイズの定理
2種類の事象AとBが起こる試行があり、事象Aの起こる確率をP(A)、事象Bの起こる確率をP(B)、AとBの同時確率をP(A∩B)、事象Aが起こるという条件の下で事象Bが起きる条件付き確率をP(B|A)としたとき、事象Bが起こるという条件の下で事象Aが起きる条件付き確率P(A|B)は次式で表される。
P(A|B)=P(B|A)P(A)P(B)
証明は(1)を利用すればよい。
P(B|A)は(1)より
P(B|A)=P(A∩B)P(A)
となるため、(3)を変形して(1)に代入すれば(2)となる。
例題1:サイコロ
ここでまず条件付き確率を扱った例題を解いてみる。
例題1
一様な6面サイコロを2回振る試行を考える。
このとき、次の問いに答えよ。
(1) 2回の試行の内のいずれかで5の目が出る確率を求めよ。
(2) 出た目の合計が7であることがわかっているとき、2回の試行の内のいずれかで5の目が出る確率を求めよ。
解説
(1)
1回目の試行で出た目をj1、2回目の試行で出た目をj2とすると、2回の試行の内のいずれかで5の目が出る事象は(j1,j2)=(1,5),(5,1),(2,5),(5,2),(3,5),(5,3),(4,5),(5,4),(5,5),(6,5),(5,6)の11通りである。
全事象は36通り存在するため、求める確率は1136となる。
(2)
出た目の合計が7である事象は(j1,j2)=(1,6),(6,1),(2,5),(5,2),(3,4),(4,3)の6通りである。
これらの内で5の目が出る事象は(j1,j2)=(2,5),(5,2)の2通りであるため、求める確率は26=13より13となる。
本問をベン図で描画すると右図のようになる。
今回はAが「2回の試行の内のいずれかで5の目が出る事象」、Bが「出た目の合計が7である事象」である。

例題2:感染検査
続いてベイズの定理を利用した、より実践的な例題を扱う。
頻出なのは以下に示すような、病原菌やウイルスの感染検査の有効性を問う問題だ。
例題2
母集団に属する人がウイルスAに感染する確率が0.1%であるとする。
このウイルスAに対する検査が存在し、ウイルスAに感染している人がこの検査を受けると95%の確率で陽性を示し、逆にウイルスAに感染していない人がこの検査を受けると1%の確率で陽性を示すことが分かっている。
このとき、検査の陽性者が実際にウイルスAに感染している確率を求めよ。
解説
今回知りたいのは「検査の陽性者の中でのウイルスAの感染者の割合」である。
よって陽性者を母集団とした感染確率を求めればよく、これは条件付き確率P(感|陽)に他ならない。
よってベイズの定理より
P(感|陽)=P(陽|感)P(感)P(陽)
となるため、P(陽|感),P(感),P(陽)の3つが分かればP(感|陽)が判明する。
まずP(陽|感)だが、これはウイルスAの感染者の中で検査結果が陽性になる確率であるため、P(陽|感)=95%=0.95となる。
続いてP(感)だが、これは母集団'(全体)に対する感染確率であるためP(感)=0.1%=0.001となる。
最後にP(陽)だが、これは母集団(全体)で検査結果が陽性になる確率であるため、感染者でありかつ陽性者である確率P(陽∩感)と、非感染者かつ陽性者である確率P(陽∩非感)の総和で表される。
よって
P(陽)=P(陽∩感)+P(陽∩非感)=P(陽|感)P(感)+P(陽|非感)P(非感)(条件付き確率の定義(1)より。)=(0.95×0.001)+{0.01×(1−0.001)}=0.01094
となる。
以上の結果を(4)に代入すれば
P(感|陽)=0.95×0.0010.01094=0.0868
となり、検査の陽性者が実際にウイルスAに感染している確率は約8.7%となる。
事前確率と事後確率
ここで先ほどの例題から、ベイズの定理で何ができるのかをもう少し詳しく見ていく。
問題を解く前に、自分たちが把握していたのは母集団に対する感染確率P(感)だった。
このP(感)を把握した上で、「病気検査を実施して陽性となった」という条件が加わった上での感染確率P(感|陽)を求めるのがこの問題の目的だった。
これは、条件なしの確率P(感)に新たな情報(条件)が加わり、更新された確率P(感|陽)を求める問題とも言い換えることができる。
この情報が加わる前の確率P(感)を事前確率、情報が与えられて更新された確率P(感|陽)を事後確率と呼ぶ。
終わりに
事前確率、事後確率、ベイズの定理はG検定でも出題される事項だが、自分の受験時の理解度は中途半端だった。
ちゃんと理解するにはそれなりに時間をかける必要があったが、わかってくると面白い。
いっそのこと、高校数学から確率を勉強し直してみるか…?
END
コメント