최대 우도 추정법(MLE) 예시

기초통계 · 2019. 12. 12. 09:45

문제)

항아리 안에 검은구슬 흰구슬 섞여 있음.

총 100개의 구슬이 있는데 10번 구슬을 추출해서 보니, 검은 구슬 4번, 흰 구슬 6번이 추출되었음

 

그렇다면, 항아리에는 몇개의 검은 구슬이 있었을까?

(MLE를 사용해서 설명)

 

답은 40이라고 보통 말하는데, MLE를 사용해서 설명

왜 40일까? 에 대해서 설명해야함

 

먼저, 항아리 내 구성 상태를 표현하는 변수는 딱 하나면 된다.

 

$ p=\frac {검은\,구슬\,수}{전체\,구슬\,수 } $

$ 1-p=\frac {흰\,구슬\,수}{전체\,구슬\,수 } $

 

우리가 목격한 사건이 확률적으로 일어난 사건으로 생각한다. (이것이 매우 중요)

 

"우리가 구슬을 10번 꺼냈을 때, 4개의 검은 구슬, 6개의 흰 구슬을 목격할 확률은 얼마인가?"

가정: 첫번째 구슬을 꺼낸 사건이 두번째 구슬을 꺼낼때 영향을 끼치지 않을 것이다.

항아리가 주어졌을때, 시퀀스대로 추출했을때

첫번째 사건이랑 두번째 사건이랑 아무 관련없을때 곱한다. 항아리 상태는 p로 볼 수 있음

 

$ p^{4}(1-p)^{6} $ 로 볼 수 있다.

 

근데, 10번 추출해서 4번 검은 구슬 나오는 경우가 많다. 경우의 수

정리하면..

 

우리가 구슬을 10번 꺼냈을 때, 4개의 검은 구슬, 6개의 흰 구슬을 목격할 확률은 얼마인가?

확률 P는 다음과 같이 표현 할 수 있다.

$ P(사건들|p)=C \times p^{4}(1-p)^{6}$

 

 

그 다음에는 어떻게 하면 될까?

$흔한\,사건=빈도가\,높은\,사건=발생\,확률이\,높은\,사건$ 으로 생각해보자.

$\textcolor{red}{목격한 사건}-> 흔한\,사건=빈도가\,높은\,사건=\textcolor{red}{발생\,확률이\,높은\,사건}$ 으로 생각해보자.

 

확률을 최대한 높여야 한다고 생각할때, 

항아리 안의 구성 상태를 의미하는 p*는 우리가 목격한 사건들이 발생할 확률을 가장 높게 만드는 p이다.

$p^{*}=argmax_{p}C \times p^{4}(1-p)^{6}$

 

max를 시키는 p를 찾아야하는데...

로그를 사용하면 된다.

로그 함수의 특징은 x<y일때 log(x) < log(y)가 항상 크다.

 

지금식에서 p를 찾는 것과

log를 씌워서 p를 찾는 것과 같다.

 

log 취한 이유는 곱하기가 더하기 되기 때문.

 

$p*=argmax_{p}C \times p^{4}(1-p)^{6} $

$=argmax_{p}log(C)+4log(p)+6log(1-p)$

$=argmax_{p}f(p)$

 

$f(p)$를 max시키는 p를 찾으려면 미분을 해야한다.

 

$f(p)=log(C)+4log(p)+6log(1-p)$

 

$f'(p)=\frac{4}{p}-\frac{6}{1-p}=0$

 

$\frac{4}{p}=\frac{6}{1-p}$

 

$4-4p=6p$

 

$4=10p$

 

$p=\frac{4}{10}$

 

초기에 항아리의 상태를 나타내는 $p=\frac{검은\,구슬\,수}{전체\,구슬\,수}$이다.

$p^{*}=\frac{4}{10}$이므로

 

$\frac{4}{10} \times 100= 40 $

 

40개.

 

10번 추출해서 4번 검은 구슬 발견했을때, 전체 구슬이 100개라는 걸 알고 있는 상황에서

40개라고 말하는 것이 합당

 

이 방법은 최대 우도법으로 추정할 수 있다.

 

최대 우도 추정법은,

 

1. 모델을 설정한다.

2. 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다.

3. 그 확률을 최대로 높이는 모델 변수를 구한다.

 

발생 확률이 높은 사건이라고 해석하는 것이 합당하고 

내가 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾는것이다.

 

 

https://www.youtube.com/watch?v=sOtkPm_1GYw