【確率・統計】最尤推定～尤度関数・負の対数尤度関数・最尤推定値～

　本記事では、統計学における推定の一種である最尤推定(最尤法)について解説する。

概要
- 推定値の求め方
- なぜ推定値が求まるのか？
具体例
終わりに

概要

推定値の求め方

　簡潔に述べると、最尤推定とは試行の結果から不明なパラメータを推定する方法である。

　先に推定値の求め方だけ示しておこう。

　確率(密度)関数\(f(\vec{x};\vec{\theta})\)において、パラメータ\(\vec{\theta}\)が不明であるとする。

　パラメータ\(\vec{\theta}\)とは、確率変数\(\vec{X}\)以外に確率(密度)関数を特徴づける量である。
　具体的には、離散型確率分布の場合は確率変数に対応する確率など、連続型確率分布の場合は期待値や分散などがパラメータに該当する。

　このとき、事象の発生確率が\(f(\vec{x};\vec{\theta})\)に従う独立な試行を\(n\)回繰り返すことを考える。

　そしてそれぞれの試行、試行の結果発生した事象、事象を特徴づける確率変数をそれぞれ\(A_{i},E_{i},\vec{x}_{i}\)(ただし\(i=1,2,,…,n\))とラベル付けする。

　ここで、上記の\(n\)回の試行の結果を利用して、尤度関数\(L(\vec{\theta})\)および負の対数尤度関数を次のように定義する。

尤度関数
\begin{align}
L(\vec{\theta})=\prod_{i}^{n}f(\vec{x}_{i};\vec{\theta}) \label{尤度関数}\tag{1}
\end{align}

負の対数尤度関数
\begin{align}
-\log L(\vec{\theta})=-\log\prod_{i}^{n}f(\vec{x}_{i};\vec{\theta})\label{負の対数尤度関数}\tag{2}
\end{align}

　すなわち尤度関数とは、事象の発生確率が\(f(\vec{x};\vec{\theta})\)に従う独立な試行を\(n\)回繰り返したとき、実際に起きた事象\(E_{i}\)の発生確率\(f(\vec{x}_{i};\vec{\theta})\)を全て掛けたものである。

　また、この尤度関数\(L(\vec{\theta})\)の対数を取ってマイナスをつけたものが負の対数尤度関数\(-\log L(\vec{\theta})\)である。

　そして\(\vec{\theta}=\hat{\vec{\theta}}\)のときに\(-\log L(\vec{\theta})\)が最小値をとるとき、この\(\hat{\vec{\theta}}\)が不明なパラメータ\(\vec{\theta}\)の推定値となる。

　この\(\hat{\vec{\theta}}\)を最尤推定値(最尤推定量)と呼ぶ。

　最尤推定では、この最尤推定値を求めることが目標となる。

なぜ推定値が求まるのか？

　なぜ上記のプロセスで推定値が求められるのか、もう少し踏み込んで考えてみる。

　不明なパラメータ\(\vec{\theta}\)を推定するために、まず事象の発生確率が確率(密度)関数\(f(\vec{x};\vec{\theta})\)に従う独立な試行\(A_{1},A_{2},…,A_{n}\)を実施し、その結果として事象\(E_{1},E_{2},…,E_{n}\)が発生した。

　長い文言を繰り返すのは紛らわしいので、「試行\(A_{1},A_{2},…,A_{n}\)によって事象\(E_{1},E_{2},…,E_{n}\)が発生する」という事象を\(E_{\text{All}}\)と置くことにする。

　このとき、尤度関数\(L(\vec{\theta})\)は事象\(E_{\text{All}}\)が発生する確率と同値である。

　なぜなら各試行\(A_{i}\)は互いに独立であり、独立な試行の同時確率は各確率値の積で表されるためである(確率の乗法定理)。

　ここで、今の状況として事象\(E_{\text{All}}\)が実際に起こっているため、「事象\(E_{\text{All}}\)が起こる確率は高いのではないか？」と考える。

　ならば、事象\(E_{\text{All}}\)が起こる確率\(L(\vec{\theta})\)が最大値を取るように\(\vec{\theta}\)を選べば、その\(\vec{\theta}\)が現状尤もらしい値と言えないだろうか？

　これが最尤推定の根本となる考え方である。

　発生した事象が最も起こりうるのはその事象の発生確率が大きいときである。
　ならば発生確率が最大になるときのパラメータ値が推定値として尤もらしいでしょう、というわけである。

　しかし、いざ尤度関数\(L(\vec{\theta})\)が最大となるパラメータ値を探ろうと思うと、その計算は得てして複雑になってしまう。

　そこで実際の計算では、尤度関数\(L(\vec{\theta})\)の対数を取ってマイナスをつけた負の対数尤度関数\(-\log L(\vec{\theta})\)が最小となるパラメータ値を探る場合が多い。

　対数を取ると指数を外すことができ\((\log x^{y}=y\log x)\)、真数の積を対数の和の形\((\log xy=\log x+\log y)\)に、また真数の商を対数の差の形\((\log (x/y)=\log x-\log y)\)に変換できるため、微分計算が各段に楽になる。

具体例

　以下、いくつかの確率分布\(f(\vec{x};\vec{\theta})\)における尤度関数、負の対数尤度関数、最尤推定値を見ていく。

　ただし、事象の発生確率が\(f(\vec{x};\vec{\theta})\)に従う試行を\(n\)回繰り返したとき、実際に起きた事象\(E_{i}\)の発生確率を\(f(\vec{x}_{i};\vec{\theta})\)とする。

ベルヌーイ分布

　確率関数は

\begin{align}
f(\vec{x};\vec{\theta})=f(x;p)=p^{x}(1-p)^{1-x}\tag{3}
\end{align}

で与えられ、パラメータは確率変数\(x\)に対応する確率\(p\)である。

　よって尤度関数\(L(p)\)は

\begin{align}
L(p)=\prod_{i=1}^{n}f(x_{i};p)=\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}\quad\therefore \,\boxed{L(p)=\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}}\tag{4}
\end{align}

　となる。

　また負の対数尤度関数は

\begin{align}
-\log L(p)&=-\log \prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}\\
&=-\sum_{i=1}^{n}\log p^{x_{i}}(1-p)^{1-x_{i}}\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\left\{x_{i}\log p+(1-x_{i})\log(1-p)\right\}\quad(真数の積を対数の和に変換)\\
\therefore\quad &\boxed{-\log L(p)=-\sum_{i=1}^{n}\left\{x_{i}\log p+(1-x_{i})\log(1-p)\right\}} \label{ベルヌーイ負対数}\tag{5}
\end{align}

となる。

　後は(\ref{ベルヌーイ負対数})が最小値をとる\(p\)を求めれば、それが最尤推定値となる。

　(\ref{ベルヌーイ負対数})は凸関数(下に凸の関数)であるため、(\ref{ベルヌーイ負対数})の導関数が0となる\(p\)が最尤推定値である。

(\ref{ベルヌーイ負対数})が凸関数となることの証明

　(\ref{ベルヌーイ負対数})では\(x_{i}\)と\(1-x_{i}\)は0または1しか値を取らない。

　また、片方が1のときに必ずもう片方が0になる。

　そこで、定数\(a>0\)を利用して(\ref{ベルヌーイ負対数})を

\begin{align}
-\log L(p)&=-\sum_{i=1}^{n}\left\{x_{i}\log p+(1-x_{i})\log(1-p)\right\} \\
&=-\{a\log p+(n-a)\log(1-p)\}\\
&=-a\log p-(n-a)\log(1-p) \label{ベル凸1}\tag{a1}
\end{align}

と書き直す。

　(\ref{ベル凸1})を微分すると

\begin{align}
\frac{d}{dp}\{-\log L(p)\}=-\frac{a}{p}+\frac{n-a}{1-p}
\end{align}

となるため\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}= 0}\)となる\(p\)を計算すると、

\begin{gather}
-\frac{a}{p}+\frac{n-a}{1-p}=0\quad\therefore p=\frac{a}{n}
\end{gather}

となる。

　以上の結果をもとに増減表を書くと右のようになる。

　よって(\ref{ベルヌーイ負対数})は1つの極小点を持つ凸関数となる。

\(p\)	\(\cdots\)	\(\displaystyle{\frac{a}{n}}\)	\(\cdots\)
\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}}\)	\(-\)	\(0\)	\(+\)
\( -\log L(p) \)	\(\searrow\)	\( -\log L(a/n) \)	\(\nearrow\)

　\(\displaystyle{0<p<\frac{a}{n}}\)で\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}<0}\)となることを確かめたいなら\(\displaystyle{p=\frac{a}{2n}}\)など、\(\displaystyle{\frac{a}{n}<p<1}\)で\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}>0}\)となることを確かめたいなら\(\displaystyle{p=\frac{n+a}{2n}}\)などを\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}}\)に代入して計算すればよい。

　よって

\begin{gather}
\frac{d}{dp}{-\log L(p)}=0\\
\frac{d}{dp}\left[-\sum_{i=1}^{n}\left\{x_{i}\log p+(1-x_{i})\log(1-p)\right\}\right]=0\\
-\sum_{i=1}^{n}\left(\frac{x_{i}}{p}-\frac{1-x_{i}}{1-p}\right)=0\\
-\frac{1}{p(1-p)}\sum_{i=1}^{n}(x_{i}-p)=0\\
\sum_{i=1}^{n}x_{i}-\sum_{i=1}^{n}p=0\\
\sum_{i=1}^{n}x_{i}-np=0\quad \therefore p=\frac{1}{n}\sum_{i=1}^{n}x_{i}\tag{6}
\end{gather}

となる。

　以上より、最尤推定値は\(\boxed{\displaystyle{\hat{p}=\frac{1}{n}\sum_{i=1}^{n}x_{i}}}\)となる。

　最尤推定値の意味を考えてみると、\(x_{i}\)は2つの事象のいずれかが出たときに1をとるため、\(\displaystyle{\sum_{i=1}^{n}x_{i}}\)は事象の出現回数となる。

　よって\(\hat{p}\)は、試行を複数回繰り返した際の事象の出現頻度と捉えることができる。

カテゴリカル分布

　確率関数は

\begin{align}
f(\vec{x};\vec{\theta})=f(x_{j};p_{j})=\prod_{j=1}^{k}p_{j}^{x_{ij}}\tag{7}
\end{align}

で与えられ、パラメータは確率変数\(x_{j}\)(ただし\(j=1,2,…,k\))に対応する確率\(p_{j}\)である。

　よって尤度関数\(L(p_{j})\)は

\begin{align}
L(p_{j})=\prod_{i=1}^{n}f(x_{ij};p_{j})=\prod_{i=1}^{n}\prod_{j=1}^{k}p_{j}^{x_{ij}}\quad\therefore \,\boxed{L(p_{j})=\prod_{i=1}^{n}\prod_{j=1}^{k}p_{j}^{x_{ij}}}\tag{8}
\end{align}

となる。

　また負の対数尤度関数は

\begin{align}
-\log L(p_{j})&=-\log \prod_{i=1}^{n}\prod_{j=1}^{k}p_{j}^{x_{ij}}\\
&=-\sum_{i=1}^{n}\log \prod_{j=1}^{k}p_{j}^{x_{ij}}\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\sum_{j=1}^{k}\log p_{j}^{x_{ij}}\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\sum_{j=1}^{k}x_{ij}\log p_{j}\\
\therefore\quad &\boxed{-\log L(p_{j})=-\sum_{i=1}^{n}\sum_{j=1}^{k}x_{ij}\log p_{j}} \label{カテゴリカル負対数}\tag{9}
\end{align}

となる。

　後は(\ref{カテゴリカル負対数})が最小値をとる\(p_{j}\)を求めれば、それが最尤推定値となる。

　結果だけ示しておくと、最尤推定値は\(\boxed{\displaystyle{\hat{p}_{j}=\frac{1}{n}\sum_{i=1}^{n}x_{ij}}}\)となり、カテゴリカル分布でも、最尤推定値は事象の出現頻度となる。
　(カテゴリカル分布では\(k\)個の事象のうち\(j\)番目の事象が出ると\(x_{j}\)が1を取るため、\(\displaystyle{\sum_{i=1}^{n}x_{ij}}\)は\(j\)番目の事象の出現回数となる。)

　最尤推定値の算出にはラグランジュの未定乗数法を用いるが、今回は扱わない。
　(時間があったら算出方法を本記事に追加する。)

二項分布

　確率関数は

\begin{align}
f(\vec{x};\vec{\theta})=f(x;p)={}_{N}\mathrm{C}{x}p^{x}(1-p)^{N-x}\tag{10}
\end{align}

で与えられ、パラメータは確率変数\(x\)に対応する確率\(p\)である。

　よって尤度関数\(L(p)\)は

\begin{gather}
L(p)=\prod_{i=1}^{n}f(x_{i};p)=\prod_{i=1}^{n}{}_{N}\mathrm{C}{x_{i}}p^{x_{i}}(1-p)^{N-x_{i}}\\
\therefore \,\boxed{L(p)=\prod_{i=1}^{n}{}_{N}\mathrm{C}{x_{i}}p^{x_{i}}(1-p)^{N-x_{i}}}\tag{11}
\end{gather}

となる。

　また負の対数尤度関数は

\begin{align}
&&-\log L(p)=&-\log \prod_{i=1}^{n}{}_{N}\mathrm{C}{x_{i}}p^{x_{i}}(1-p)^{N-x_{i}}\\
&&=&-\log \prod_{i=1}^{n}\frac{N!}{x_{i}!(N-x_{i})!}p^{x_{i}}(1-p)^{N-x_{i}}\\
&&=&-\sum_{i=1}^{n}\log \frac{N!}{x_{i}!(N-x_{i})!}p^{x_{i}}(1-p)^{N-x_{i}}\quad(真数の積を対数の和に変換)\\
&&=&-\sum_{i=1}^{n}\{\log N!-\log x_{i}!-\log(N-x_{i})!\\
&& &\quad\quad\quad+\log p^{x_{i}}+\log (1-p)^{N-x_{i}}\}\quad(真数の積を対数の和に変換)\\
&&=&-\sum_{i=1}^{n}\{\log N!-\log x_{i}!-\log(N-x_{i})!\\
&& &\quad\quad\quad+x_{i}\log p+(N-x_{i})\log (1-p)\}\\
&&\therefore\quad&\boxed{-\log L(p)=-\sum_{i=1}^{n}\{\log N!-\log x_{i}!-\log(N-x_{i})!\\
\quad\quad\quad\quad\quad\quad\quad\quad+x_{i}\log p+(N-x_{i})\log (1-p)\}}\label{二項負対数}\tag{12}
\end{align}

となる。

　後は(\ref{二項負対数})が最小値をとる\(p\)を求めれば、それが最尤推定値となる。

　(\ref{二項負対数})は凸関数(下に凸の関数)であるため、(\ref{二項負対数})の導関数が0となる\(p\)が最尤推定値である。

(\ref{二項負対数})が凸関数であることの証明

　(\ref{二項負対数})の右辺の総和を実際に計算すると、\(\log p\)と\(\log(1-p)\)の係数部分の総和は\(nN\)となる。

　そこで、定数\(a>0,b\)を利用して(\ref{二項負対数})を

\begin{align}
&&-\log L(p)=&-\sum_{i=1}^{n}\{\log N!-\log x_{i}!-\log(N-x_{i})!\\
&& &\quad\quad\quad+x_{i}\log p+(N-x_{i})\log (1-p)\}\\
&&=&-a\log p-(nN-a)\log(1-p)+b \label{二項凸1}\tag{a2}
\end{align}

と書き直す。

　(\ref{二項凸1})を微分すると

\begin{align}
\frac{d}{dp}\{-\log L(p)\}=-\frac{a}{p}+\frac{nN-a}{1-p}
\end{align}

となるため\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}= 0}\)となる\(p\)を計算すると、

\begin{gather}
-\frac{a}{p}+\frac{nN-a}{1-p}=0\quad\therefore p=\frac{a}{nN}
\end{gather}

となる。

　以上の結果をもとに増減表を書くと右のようになる。

　よって(\ref{二項負対数})は1つの極小点を持つ凸関数となる。

\(p\)	\(\cdots\)	\(\displaystyle{\frac{a}{nN}}\)	\(\cdots\)
\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}}\)	\(-\)	\(0\)	\(+\)
\( -\log L(p) \)	\(\searrow\)	\( -\log L(a/nN) \)	\(\nearrow\)

　\(\displaystyle{0<p<\frac{a}{nN}}\)で\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}<0}\)となることを確かめたいなら\(\displaystyle{p=\frac{a}{2nN}}\)など、\(\displaystyle{\frac{a}{nN}<p<1}\)で\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}>0}\)となることを確かめたいなら\(\displaystyle{p=\frac{nN+a}{2nN}}\)などを\(\displaystyle{ \frac{d}{dp}\{-\log L(p)\}}\)に代入して計算すればよい。

　よって

\begin{gather}
\frac{d}{dp}{-\log L(p)}=0\\
\frac{d}{dp}\left[-\sum_{i=1}^{n}{\log N!-\log x_{i}!-\log(N-x_{i})!+x_{i}\log p+(N-x_{i})\log (1-p)}\right]=0\\
-\sum_{i=1}^{n}\left(\frac{x_{i}}{p}-\frac{N-x_{i}}{1-p}\right)=0\\
-\frac{1}{p(1-p)}\sum_{i=1}^{n}(x_{i}-Np)=0\\
\sum_{i=1}^{n}x_{i}-\sum_{i=1}^{n}Np=0\\
\sum_{i=1}^{n}x_{i}-nNp=0\quad \therefore p=\frac{1}{nN}\sum_{i=1}^{n}x_{i}\tag{13}
\end{gather}

となる。

　以上より、最尤推定値は\(\boxed{\displaystyle{\hat{p}_{j}=\frac{1}{nN}\sum_{i=1}^{n}x_{i}}}\)となる。

　\(nN\)は試行\(A_{i}\)の中の試行回数\(N\)を含めた全試行回数であり、\(\displaystyle{\sum_{i=1}^{n}x_{i}}\)は2つの事象のうちのいずれかの全出現回数となる。

　よって二項分布においても、最尤推定値\(\hat{p}\)は全試行に対する事象の出現頻度を表す。

多項分布

　確率関数は

\begin{align}
f(x_{j};p_{j})=N!\prod_{j=1}^{k}\frac{p_{j}^{x_{j}}}{x_{j}!}\tag{14}
\end{align}

で与えられ、パラメータは確率変数\(x_{j}\)に対応する確率\(p_{j}\)である。

　よって尤度関数\(L(p_{j})\)は

\begin{gather}
L(p_{j})=\prod_{i=1}^{n}f(x_{ij};p_{j})=\prod_{i=1}^{n}N!\prod_{j=1}^{k}\frac{p_{j}^{x_{ij}}}{x_{ij}!}\quad
\therefore \,\boxed{L(p_{j})=\prod_{i=1}^{n}N!\prod_{j=1}^{k}\frac{p_{j}^{x_{ij}}}{x_{ij}!}}\tag{15}
\end{gather}

となる。

　また負の対数尤度関数は

\begin{align}
-\log L(p_{j})&=-\log \prod_{i=1}^{n}N!\prod_{j=1}^{k}\frac{p_{j}^{x_{ij}}}{x_{ij}!}\\
&=-\sum_{i=1}^{n}\log N!\prod_{j=1}^{k}\frac{p_{j}^{x_{ij}}}{x_{ij}!}\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\left(\log N!+\log \prod_{j=1}^{k}\frac{p_{j}^{x_{ij}}}{x_{ij}!}\right)\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\log N!-\sum_{i=1}^{n}\sum_{j=1}^{k}\log\frac{p_{j}^{x_{ij}}}{x_{ij}!}\quad(真数の積を対数の和に変換) \\
&=-n\log N!-\sum_{i=1}^{n}\sum_{j=1}^{k}\left(x_{ij}\log p_{j}-\log x_{ij}!\right)\quad(真数の商を対数の差に変換)\\
\therefore \quad&\boxed{-\log L(p_{j})=-n\log N!-\sum_{i=1}^{n}\sum_{j=1}^{k}\left(x_{ij}\log p_{j}-\log x_{ij}!\right)}\label{多項負対数}\tag{16}
\end{align}

となる。

　後は(\ref{多項負対数})が最小値をとる\(p\)を求めれば、それが最尤推定値となる。

　結果だけ示しておくと、最尤推定値は\(\boxed{\displaystyle{\hat{p}_{j}=\frac{1}{nN}\sum_{i=1}^{n}x_{ij}}}\)となり、多項分布でも、最尤推定値は事象の出現頻度となる。
　(多項分布では\(k\)個の事象のうち\(j\)番目の事象が出た回数が\(x_{j}\)であるため、\(\displaystyle{\sum_{i=1}^{n}x_{ij}}\)は\(j\)番目の事象の出現回数となる。)

　最尤推定値の算出にはラグランジュの未定乗数法を用いるが、今回は扱わない。
　(時間があったら算出方法を本記事に追加する。)

正規分布

　確率密度関数は

\begin{align}
f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\frac{(x-\mu)^{2}}{2\sigma^{2}}\right]\tag{17}
\end{align}

で与えられ、パラメータは期待値\(\mu\)と分散\(\sigma^{2}\)である。

　よって尤度関数\(L(\mu,\sigma^{2})\)は

\begin{align}
L(\mu,\sigma^{2})=\prod_{i=1}^{n}f(x;\mu,\sigma^{2})=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right]\tag{18}
\end{align}

となる。

　また負の対数尤度関数は

\begin{align}
-\log L(\mu,\sigma^{2})&=-\log \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right]\\
&=-\sum_{i=1}^{n}\log \frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right]\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\left(\log \frac{1}{\sqrt{2\pi\sigma^{2}}}+\log \exp\left[-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right]\right)\quad(真数の積を対数の和に変換)\\
&=-\sum_{i=1}^{n}\log \frac{1}{\sqrt{2\pi\sigma^{2}}}-\sum_{i=1}^{n}\left[-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right] \\
&=-n\log (2\pi\sigma^{2})^{-1/2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\\
&=\frac{1}{2}n(\log 2\pi+\log \sigma^{2})+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\quad(真数の積を対数の和に変換)\\
&=\frac{1}{2}n\log 2\pi+\frac{1}{2}n\log \sigma^{2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\\
\therefore \quad&\boxed{-\log L(\mu,\sigma^{2})=\frac{1}{2}n\log 2\pi+\frac{1}{2}n\log \sigma^{2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}}\label{正規負対数}\tag{19}
\end{align}

となる。

　後は(\ref{正規負対数})が最小値をとる\(\mu\)または\(\sigma^{2}\)を求めれば、それが最尤推定値となる。

　まずは分散\(\sigma^{2}\)が固定されているとして、期待値\(\mu\)の最尤推定値を求めてみる。

　このとき(\ref{正規負対数})は下に凸の\(\mu\)の二次関数となるため、(\ref{正規負対数})の導関数が0となる\(\mu\)が最尤推定値である。

　よって

\begin{gather}
\frac{d}{d\mu}{-\log L(\mu)}=0\\
\frac{d}{d\mu}\left[\frac{1}{2}n\log 2\pi+\frac{1}{2}n\log \sigma^{2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\right]=0\\
\sum_{i=1}^{n}-2(x_{i}-\mu)=0\\
\sum_{i=1}^{n}(\mu-x_{i})=0\\
n\mu-\sum_{i=1}^{n}x_{i}=0\quad \therefore \mu=\frac{1}{n}\sum_{i=1}^{n}x_{i}\tag{20}
\end{gather}

となる。

　よって期待値\(\mu\)の最尤推定値は\(\boxed{\displaystyle{\hat{\mu}=\frac{1}{n}\sum_{i=1}^{n}x_{i}}}\)となり、全結果の平均値となる。

　続いて期待値\(\mu\)が固定されているとして、分散\(\sigma^{2}\)の最尤推定値を求めてみる。

　このときもまた、(\ref{正規負対数})は\(\sigma^{2}\)の凸関数(下に凸の関数)となるため、(\ref{正規負対数})の導関数が0となる\(\sigma^{2}\)が最尤推定値である。

(\ref{正規負対数})が\(\sigma^{2}\)の凸関数となることの証明

　 (\ref{正規負対数})の右辺における\(\log\sigma^{2}\)と\(1/\sigma^{2}\)の項の係数はいずれも正の値を取る。

　そこで、定数\(a>0,b>0,c>0\)を利用して(\ref{正規負対数})を

\begin{align}
-\log L(\sigma^{2})&=\frac{1}{2}n\log 2\pi+\frac{1}{2}n\log \sigma^{2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\\
&=a\log\sigma^{2}+\frac{b}{\sigma^{2}}+c \label{正規凸1}\tag{a3}
\end{align}

と書き直す。

　(\ref{正規凸1})を微分すると

\begin{align}
\frac{d}{d\sigma^{2}}\{-\log L(\sigma^{2})\}=\frac{a}{\sigma^{2}}-\frac{b}{(\sigma^{2})^{2}}
\end{align}

となるため\(\displaystyle{ \frac{d}{d\sigma^{2}}\{-\log L(\sigma^{2})\}= 0}\)となる\(\sigma^{2}\)を計算すると、

\begin{gather}
\frac{a}{\sigma^{2}}-\frac{b}{(\sigma^{2})^{2}}=0\quad\therefore \sigma^{2}=\frac{b}{a}
\end{gather}

となる。

　以上の結果をもとに増減表を書くと右のようになる。

　よって(\ref{正規負対数})は1つの極小点を持つ凸関数となる。

\(\sigma^{2}\)	\(\cdots\)	\(\displaystyle{\frac{b}{a}}\)	\(\cdots\)
\(\displaystyle{ \frac{d}{d \sigma^{2} }\{-\log L( \sigma^{2} )\}}\)	\(-\)	\(0\)	\(+\)
\( -\log L( \sigma^{2} ) \)	\(\searrow\)	\( -\log L(b/a) \)	\(\nearrow\)

　\(\displaystyle{\sigma^{2}<\frac{b}{a}}\)で\(\displaystyle{ \frac{d}{d\sigma^{2}}\{-\log L(\sigma^{2})\}<0}\)となることを確かめたいなら\(\displaystyle{p=\frac{b}{2a}}\)など、\(\displaystyle{\sigma^{2}>\frac{b}{a}}\)で\(\displaystyle{ \frac{d}{d\sigma^{2}}\{-\log L(\sigma^{2})\}>0}\)となることを確かめたいなら\(\displaystyle{p=\frac{2b}{a}}\)などを\(\displaystyle{ \frac{d}{d \sigma^{2} }\{-\log L( \sigma^{2} )\}}\)に代入して計算すればよい。

　よって

\begin{gather}
\frac{d}{d\sigma^{2}}{-\log L(\sigma^{2})}=0\\
\frac{d}{d\sigma^{2}}\left[\frac{1}{2}n\log 2\pi+\frac{1}{2}n\log \sigma^{2}+\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\right]=0\\
\frac{n}{2\sigma^{2}}-\frac{1}{2(\sigma^{2})^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}=0\\
n\sigma^{2}-\sum_{i=1}^{n}(x_{i}-\mu)^{2}=0 \quad\therefore\sigma^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\tag{21}
\end{gather}

となる。

　よって分散\(\sigma^{2}\)の最尤推定値は\(\boxed{\displaystyle{\hat{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}}}\)となり、全結果の分散となる。

終わりに

　ラグランジュの未定乗数法は大学時代に解析力学の講義で触れた記憶がある。

　後でノートを引っ張り出して復習した上で、可能であればカテゴリカル分布と多項分布の最尤推定値の計算過程を追加したい。

　にしても、長かった…

　もともと例題解説も込みにする予定だったが、分けて良かった…

　END

　【追記】
　最尤推定の例題解説の記事を書いた。

【確率・統計】最尤推定～例題～

本記事では、統計学における推定の一種である最尤推定(最尤法)の例題を扱う。　最尤推定については下記記事を参照。例題1例題1　表が出る確率が\(p\)、裏が出る確率が\(1-p\)で与えられるコインがある。　このコインを10回振ったとき、表が...