확률
주사위를 예로 들면,
주사위를 1번 던져서 나올 수 있는 숫자는 1,2,3,4,5,6이고
각 숫자가 나올 확률은 $ \frac{1}{6}$으로 모두 같다.
동전은 10번 던져서 앞면은 0번~10번 나올 수 있으며, 각각의 확률은 계산해보면
0번 = $\binom{10}{0} \times (\frac{1}{2})^{0} \times (\frac{1}{2})^{10}=1 \times 0.00097=0.001$
1번 = $\binom{10}{1} \times (\frac{1}{2})^{1} \times (\frac{1}{2})^{9}=10 \times 0.00097=0.01$
2번 = $\binom{10}{2} \times (\frac{1}{2})^{2} \times (\frac{1}{2})^{8}=45 \times 0.00097=0.044$
3번 = $\binom{10}{3} \times (\frac{1}{2})^{3} \times (\frac{1}{2})^{7}=120 \times 0.00097=0.117$
4번 = $\binom{10}{4} \times (\frac{1}{2})^{4} \times (\frac{1}{2})^{6}=210 \times 0.00097=0.205$
5번 = $\binom{10}{5} \times (\frac{1}{2})^{5} \times (\frac{1}{2})^{5}=252 \times 0.00097=0.246$
6번 = $\binom{10}{6} \times (\frac{1}{2})^{6} \times (\frac{1}{2})^{4}=210 \times 0.00097=0.205$
7번 = $\binom{10}{7} \times (\frac{1}{2})^{7} \times (\frac{1}{2})^{3}=120 \times 0.00097=0.117$
8번 = $\binom{10}{8} \times (\frac{1}{2})^{8} \times (\frac{1}{2})^{2}=45 \times 0.00097=0.044$
9번 = $\binom{10}{9} \times (\frac{1}{2})^{9} \times (\frac{1}{2})^{1}=10 \times 0.00097=0.01$
10번 = $\binom{10}{10} \times (\frac{1}{2})^{10} \times (\frac{1}{2})^{0}=1 \times 0.00097=0.001$
연속 사건의 확률
특정 사건의 확률은 모두 0
1과 6사이의 숫자중 랜덤으로 아무 숫자나 뽑는다고 하자. 정확히 5가 뽑힐 확률은 얼마일까?
1과 6사이에는 무한개의 숫자가 있으니 정확히 5가 뽑힐 확률은 $ \frac{1}{\infty}=0$ 이다.
어떤 특정 숫자가 뽑힐 확률은 전부 0이다.
따라서, 이런 연속사건인 경우 특정 숫자가 나올 확률을 말하는 것은 의미가 없어, 다른 방법을 생각해야하는데,
숫자가 특정 구간에 속할 확률을 말하는 것이 그 대안이다.
특정 구간에 속할 확률: 확률밀도함수(Probability Density Function, PDF)
1에서 6사이의 숫자 중 정확히 뽑힐 확률은 0이지만
4에서 5 사이의 숫자가 뽑힐 확률은 20%이다. 전체 구간의 길이는 6-1=5이고 4에서 5사이의 길이는 1이기 때문이다.
마찬가지의 논리로 2에서 4사이의 숫자가 뽑힐 확률은 $ \frac {2}{5}=40\%$이 된다.
특정 사건에 대한 확률 대신
특정 구간에 속할 확률을 구함으로서
간접적으로 특정 사건의 확률에 대한 감을 잡을 수 있음.
이것을 설명하는 곡선이 바로 확률밀도함수(Probability Density Function, PDF)이다.
<그래프에서 특정 구간에 속한 넓이 = 특정 구간에 속할 확률>
왼쪽 그림에서 1에서 6사이에는 전부 0.2이고 나머지 구간은 0이다.
1보다 작거나 6보다 큰 숫자를 뽑을 수 없기 때문임.
전체확률은 1이므로 그림의 직사각형 넓이는 1이 되고 y값은 전부 0.2이가 된다.
오른쪽 그림은 정규분포로 평균이 0, 분산이 1인 표준정규분포를 나타낸다.
표준 정규분포의 PDF는 z가 -1.96~1.96안에 있을 확률이 95%임이 잘 알려져 있다.
연속사건의 경우에는 특정 사건이 일어날 확률은 모두 0이며, 어떤 구간에 속할 확률은 PDF를 이용해서 구할 수 있다.
그러면,
특정 사건에 대한 해석은 할 수 없는걸까?
정규분포를 보면
0이 나올 확률도 0
1이 나올 확률도 0
999가 나올 확률도 0으로 모두 같으므로
차이가 없다고 말할 수 있다.
그러나 0이 나올 가능성이 가장 높고
1 근처가 나올 가능성은 그보다 낮고
999같이 큰 수가 나올 가능성은 거의 없다는 것을 안다.
확률이라는 지표로는 연속사건의 가능성 차이를 표시할 수 없다는 문제가 있음.
특정 사건이 일어날 가능성은 비교할 수 없나? -> 가능도(Likelihood)
가능도라는 개념을 적용하면 비교가 가능.
위에 있는 그래프들 값에서 y값을 가능도로 생각하면 된다.
y값이 높을 수록 일어날 가능성이 높은 사건이라는 것,
주사위나 동전을 던지는 경우 y값이 각 사건이 일어날 확률을 나타내었으므로 가능도=확률이 되어
확률이 높을수록 일어날 가능성이 높은 사건이 된다.
정규분포같이 연속사건인 경우 PDF의 값이 바로 y가 되며
0에 해당하는 PDF 값이 0.4로 1에 해당하는 PDF값인 0.24보다 높아
0 근처의 숫자가 나올 가능성이 1 근처의 숫자가 나올 가능성보다 높다고 할 수 있다.
0 이 나올 확률과 1 이 나올 확률이 0인 것과는 대조적이다.
가능도의 직관적인 정의 : 확률분포함수의 y값
셀 수 있는 사건 : $가능도=확률$
연속 사건: $가능도\neq확률, 가능도=PDF값$
http://rstudio-pubs-static.s3.amazonaws.com/204928_c2d6c62565b74a4987e935f756badfba.html
확률(Probability) vs 가능도(Likelihood)
시작하면서 본 챕터에서는 가능도(Likelihood) 가 무엇인지 직관적으로 이해하는 것을 목표로 한다. 가능도는 정규분포부터 회귀분석과 최신 인공지능 알고리즘에 이르기까지 통계학의 모든 부분에서 빠질 수 없는 개념인데, 이상하게도 의학 또는 보건학을 다루는 통계학 책에서는 이 개념을 잘 설명하지 않는다. 물론 통계 비전공자에게 설명하기 까다로운 개념임을 인정하며, 이번 기회에 확률(Probability)과 비교를 통해 엄밀한 정의는 아니더라도 대략적인
rstudio-pubs-static.s3.amazonaws.com
'기초통계' 카테고리의 다른 글
이산확률변수의 결합확률분포 (0) | 2019.12.12 |
---|---|
확률질량함수 (0) | 2019.12.12 |
최대 우도 추정법(MLE) 예시 (0) | 2019.12.12 |
MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posterior) (0) | 2019.12.11 |
로그 함수의 사용 의도 (1) | 2019.12.11 |