확률(Probability) vs 가능도(Likelihood)

기초통계 · 2019. 12. 12. 11:26

 

 

 

확률

 

주사위를 예로 들면,

 

주사위를 1번 던져서 나올 수 있는 숫자는 1,2,3,4,5,6이고

각 숫자가 나올 확률은 $ \frac{1}{6}$으로 모두 같다.

 

동전은 10번 던져서 앞면은 0번~10번 나올 수 있으며, 각각의 확률은 계산해보면

 

0번 = $\binom{10}{0} \times (\frac{1}{2})^{0} \times (\frac{1}{2})^{10}=1 \times 0.00097=0.001$

1번 = $\binom{10}{1} \times (\frac{1}{2})^{1} \times (\frac{1}{2})^{9}=10 \times 0.00097=0.01$

2번 = $\binom{10}{2} \times (\frac{1}{2})^{2} \times (\frac{1}{2})^{8}=45 \times 0.00097=0.044$

3번 = $\binom{10}{3} \times (\frac{1}{2})^{3} \times (\frac{1}{2})^{7}=120 \times 0.00097=0.117$

4번 = $\binom{10}{4} \times (\frac{1}{2})^{4} \times (\frac{1}{2})^{6}=210 \times 0.00097=0.205$

5번 = $\binom{10}{5} \times (\frac{1}{2})^{5} \times (\frac{1}{2})^{5}=252 \times 0.00097=0.246$

6번 = $\binom{10}{6} \times (\frac{1}{2})^{6} \times (\frac{1}{2})^{4}=210 \times 0.00097=0.205$

7번 = $\binom{10}{7} \times (\frac{1}{2})^{7} \times (\frac{1}{2})^{3}=120 \times 0.00097=0.117$

8번 = $\binom{10}{8} \times (\frac{1}{2})^{8} \times (\frac{1}{2})^{2}=45 \times 0.00097=0.044$

9번 = $\binom{10}{9} \times (\frac{1}{2})^{9} \times (\frac{1}{2})^{1}=10 \times 0.00097=0.01$

10번 = $\binom{10}{10} \times (\frac{1}{2})^{10} \times (\frac{1}{2})^{0}=1 \times 0.00097=0.001$

 

 

 

연속 사건의 확률

 

특정 사건의 확률은 모두 0

 

1과 6사이의 숫자중 랜덤으로 아무 숫자나 뽑는다고 하자. 정확히 5가 뽑힐 확률은 얼마일까?

 

1과 6사이에는 무한개의 숫자가 있으니 정확히 5가 뽑힐 확률은 $ \frac{1}{\infty}=0$ 이다.

어떤 특정 숫자가 뽑힐 확률은 전부 0이다.

 

따라서, 이런 연속사건인 경우 특정 숫자가 나올 확률을 말하는 것은 의미가 없어, 다른 방법을 생각해야하는데,

숫자가 특정 구간에 속할 확률을 말하는 것이 그 대안이다.

 

특정 구간에 속할 확률: 확률밀도함수(Probability Density Function, PDF)

1에서 6사이의 숫자 중 정확히 뽑힐 확률은 0이지만

 

4에서 5 사이의 숫자가 뽑힐 확률은 20%이다. 전체 구간의 길이는 6-1=5이고 4에서 5사이의 길이는 1이기 때문이다.

 

마찬가지의 논리로 2에서 4사이의 숫자가 뽑힐 확률은 $ \frac {2}{5}=40\%$이 된다.

 

특정 사건에 대한 확률 대신

특정 구간에 속할 확률을 구함으로서

간접적으로 특정 사건의 확률에 대한 감을 잡을 수 있음.

 

이것을 설명하는 곡선이 바로 확률밀도함수(Probability Density Function, PDF)이다.

<그래프에서 특정 구간에 속한 넓이 = 특정 구간에 속할 확률>

 

왼쪽 그림에서 1에서 6사이에는 전부 0.2이고 나머지 구간은 0이다.

1보다 작거나 6보다 큰 숫자를 뽑을 수 없기 때문임.

 

전체확률은 1이므로 그림의 직사각형 넓이는 1이 되고 y값은 전부 0.2이가 된다.

 

오른쪽 그림은 정규분포로 평균이 0, 분산이 1인 표준정규분포를 나타낸다.

표준 정규분포의 PDF는 z가 -1.96~1.96안에 있을 확률이 95%임이 잘 알려져 있다.

연속사건의 경우에는 특정 사건이 일어날 확률은 모두 0이며, 어떤 구간에 속할 확률은 PDF를 이용해서 구할 수 있다.

 

그러면,

특정 사건에 대한 해석은 할 수 없는걸까?

 

정규분포를 보면

0이 나올 확률도 0

1이 나올 확률도 0

999가 나올 확률도 0으로 모두 같으므로

차이가 없다고 말할 수 있다.

 

그러나 0이 나올 가능성이 가장 높고

1 근처가 나올 가능성은 그보다 낮고

999같이 큰 수가 나올 가능성은 거의 없다는 것을 안다.

 

확률이라는 지표로는 연속사건의 가능성 차이를 표시할 수 없다는 문제가 있음.

 

특정 사건이 일어날 가능성은 비교할 수 없나? -> 가능도(Likelihood)

가능도라는 개념을 적용하면 비교가 가능.

 

위에 있는 그래프들 값에서 y값을 가능도로 생각하면 된다.

y값이 높을 수록 일어날 가능성이 높은 사건이라는 것,

 

주사위나 동전을 던지는 경우 y값이 각 사건이 일어날 확률을 나타내었으므로 가능도=확률이 되어

확률이 높을수록 일어날 가능성이 높은 사건이 된다.

 

정규분포같이 연속사건인 경우 PDF의 값이 바로 y가 되며

0에 해당하는 PDF 값이 0.4로 1에 해당하는 PDF값인 0.24보다 높아

 

0 근처의 숫자가 나올 가능성이 1 근처의 숫자가 나올 가능성보다 높다고 할 수 있다.

0 이 나올 확률과 1 이 나올 확률이 0인 것과는 대조적이다.

 

 

가능도의 직관적인 정의 : 확률분포함수의 y값

 

셀 수 있는 사건 : $가능도=확률$

연속 사건: $가능도\neq확률, 가능도=PDF값$

 

 

 

http://rstudio-pubs-static.s3.amazonaws.com/204928_c2d6c62565b74a4987e935f756badfba.html

 

확률(Probability) vs 가능도(Likelihood)

시작하면서 본 챕터에서는 가능도(Likelihood) 가 무엇인지 직관적으로 이해하는 것을 목표로 한다. 가능도는 정규분포부터 회귀분석과 최신 인공지능 알고리즘에 이르기까지 통계학의 모든 부분에서 빠질 수 없는 개념인데, 이상하게도 의학 또는 보건학을 다루는 통계학 책에서는 이 개념을 잘 설명하지 않는다. 물론 통계 비전공자에게 설명하기 까다로운 개념임을 인정하며, 이번 기회에 확률(Probability)과 비교를 통해 엄밀한 정의는 아니더라도 대략적인

rstudio-pubs-static.s3.amazonaws.com