문제)
항아리 안에 검은구슬 흰구슬 섞여 있음.
총 100개의 구슬이 있는데 10번 구슬을 추출해서 보니, 검은 구슬 4번, 흰 구슬 6번이 추출되었음
그렇다면, 항아리에는 몇개의 검은 구슬이 있었을까?
(MLE를 사용해서 설명)
답은 40이라고 보통 말하는데, MLE를 사용해서 설명
왜 40일까? 에 대해서 설명해야함
먼저, 항아리 내 구성 상태를 표현하는 변수는 딱 하나면 된다.
$ p=\frac {검은\,구슬\,수}{전체\,구슬\,수 } $
$ 1-p=\frac {흰\,구슬\,수}{전체\,구슬\,수 } $
우리가 목격한 사건이 확률적으로 일어난 사건으로 생각한다. (이것이 매우 중요)
"우리가 구슬을 10번 꺼냈을 때, 4개의 검은 구슬, 6개의 흰 구슬을 목격할 확률은 얼마인가?"
가정: 첫번째 구슬을 꺼낸 사건이 두번째 구슬을 꺼낼때 영향을 끼치지 않을 것이다.
항아리가 주어졌을때, 시퀀스대로 추출했을때
첫번째 사건이랑 두번째 사건이랑 아무 관련없을때 곱한다. 항아리 상태는 p로 볼 수 있음
$ p^{4}(1-p)^{6} $ 로 볼 수 있다.
근데, 10번 추출해서 4번 검은 구슬 나오는 경우가 많다. 경우의 수
정리하면..
우리가 구슬을 10번 꺼냈을 때, 4개의 검은 구슬, 6개의 흰 구슬을 목격할 확률은 얼마인가?
확률 P는 다음과 같이 표현 할 수 있다.
$ P(사건들|p)=C \times p^{4}(1-p)^{6}$
그 다음에는 어떻게 하면 될까?
$흔한\,사건=빈도가\,높은\,사건=발생\,확률이\,높은\,사건$ 으로 생각해보자.
$\textcolor{red}{목격한 사건}-> 흔한\,사건=빈도가\,높은\,사건=\textcolor{red}{발생\,확률이\,높은\,사건}$ 으로 생각해보자.
확률을 최대한 높여야 한다고 생각할때,
항아리 안의 구성 상태를 의미하는 p*는 우리가 목격한 사건들이 발생할 확률을 가장 높게 만드는 p이다.
$p^{*}=argmax_{p}C \times p^{4}(1-p)^{6}$
max를 시키는 p를 찾아야하는데...
로그를 사용하면 된다.
로그 함수의 특징은 x<y일때 log(x) < log(y)가 항상 크다.
지금식에서 p를 찾는 것과
log를 씌워서 p를 찾는 것과 같다.
log 취한 이유는 곱하기가 더하기 되기 때문.
$p*=argmax_{p}C \times p^{4}(1-p)^{6} $
$=argmax_{p}log(C)+4log(p)+6log(1-p)$
$=argmax_{p}f(p)$
$f(p)$를 max시키는 p를 찾으려면 미분을 해야한다.
$f(p)=log(C)+4log(p)+6log(1-p)$
$f'(p)=\frac{4}{p}-\frac{6}{1-p}=0$
$\frac{4}{p}=\frac{6}{1-p}$
$4-4p=6p$
$4=10p$
$p=\frac{4}{10}$
초기에 항아리의 상태를 나타내는 $p=\frac{검은\,구슬\,수}{전체\,구슬\,수}$이다.
$p^{*}=\frac{4}{10}$이므로
$\frac{4}{10} \times 100= 40 $
40개.
10번 추출해서 4번 검은 구슬 발견했을때, 전체 구슬이 100개라는 걸 알고 있는 상황에서
40개라고 말하는 것이 합당
이 방법은 최대 우도법으로 추정할 수 있다.
최대 우도 추정법은,
1. 모델을 설정한다.
2. 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다.
3. 그 확률을 최대로 높이는 모델 변수를 구한다.
발생 확률이 높은 사건이라고 해석하는 것이 합당하고
내가 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾는것이다.
https://www.youtube.com/watch?v=sOtkPm_1GYw
'기초통계' 카테고리의 다른 글
확률질량함수 (0) | 2019.12.12 |
---|---|
확률(Probability) vs 가능도(Likelihood) (0) | 2019.12.12 |
MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posterior) (0) | 2019.12.11 |
로그 함수의 사용 의도 (1) | 2019.12.11 |
결합확률분포(추후 업뎃) (0) | 2019.12.01 |