이산확률변수의 결합확률분포
https://yjam.tistory.com/39 확률질량함수 확률분포는 확률변수에 따라 확률이 어떻게 흩어져 있는지를 표현함. 이 흩어져 있는 것을 표현하기 위해 함수를 도입하는 것 확률분포는 함수인 것이다. 동전을 3개 던..
yjam.tistory.com
주변확률분포는 결합확률분포를 꼭 알아야함.
주변확률분포는 결합확률분포를 전제로 하기 때문.
두 변수 간의 관계를 파악하기 위해서는 결합확률분포를 보아야한다. 흔히 산포도(scatter plot)로 표현된다.
결합확률분포표를 예시는 다음과 같다.
X | ||||
0 | 1 | 2 | ||
Y | 0 | $ \frac {3}{28} $ | $ \frac {9}{28} $ | $ \frac {3}{28} $ |
1 | $ \frac {6}{28} $ | $ \frac {6}{28} $ | 0 | |
2 | $ \frac {1}{28} $ | 0 | 0 |
두 개의 변수로 이루어진 결합확률분포를 통해 하나의 변수로만 이루어진 확률함수를 구하려면...
주변확률분포를 이용해야한다.
주변확률분포의 정의
결합확률분포 $f(x,y)가 확률변수 X 또는 Y만의 분포이면,
1) 확률변수가 이산확률변수인 경우
$ f_{X}(x)= \sum_{y} f(x,y)$
$ f_{Y}(y)= \sum_{x} f(x,y)$
1) 확률변수가 이산확률변수인 경우
$ f_{X}(x)= \int_{-\infty}^{\infty} f(x,y)dy$
$ f_{Y}(y)= \int_{-\infty}^{\infty} f(x,y)dx$
주변확률분포의 정의를 이용해서 확률변수를 계산한다.
확률변수 X=0의 분포를 알고 싶으면, X=0에 해당하는 열을 더한다.
P(Y=0)+P(Y=1)+P(Y=2)를 더하는 것과 같다.
같은 방식으로 계산해서 다음과 같은 표를 얻는다.
X | |||||
0 | 1 | 2 | $f_{Y}(y)$ | ||
Y | 0 | $ \frac {3}{28} $ | $ \frac {9}{28} $ | $ \frac {3}{28} $ | $ \frac {15}{28} $ |
1 | $ \frac {6}{28} $ | $ \frac {6}{28} $ | $ 0 $ | $ \frac {12}{28} $ | |
2 | $ \frac {1}{28} $ | $ 0 $ | $ 0 $ | $ \frac {1}{28} $ | |
$f_{X}(x)$ | $ \frac {10}{28} $ | $ \frac {15}{28} $ | $ \frac {3}{28} $ | 1 |
확률변수의 독립
확률변수 X와 Y가 서로 독립이면
$ f(x,y)=f_{X}(x) \times f_{Y}(y) $ 이 성립한다.
X | |||||
0 | 1 | 2 | $f_{Y}(y) $ | ||
Y | 0 | $ \frac {15}{28} \times \frac {10}{28} = 0.191 $ | $ 0.286$ | $ 0.057 $ | $ \frac {15}{28} $ |
1 | $ 0.153 $ | $ 0.229 $ | $ 0.045 $ | $ \frac {12}{28} $ | |
2 | $ 0.012 $ | $ 0.019 $ | $ 0.003 $ | $ \frac {1}{28} $ | |
$f_{X}(x)$ | $ \frac {10}{28} $ | $ \frac {15}{28} $ | $ \frac {3}{28} $ | 1 |
즉, X와 Y는 독립이 아니다
기댓값(Expectation)
기댓값을 간단하게 말하면 평균(average)라고 할 수 있음.
어떤 확률을 가진 사건을 무한히 반복했을 경우 얻을 수 있는 값의 평균으로서 기대할 수 있는 값을 기댓값이라고 함.
기댓값의 정의
이산확률변수 X의 확률분포함수가 f(x)일 때, X의 기대값 E(X)는
$E(X)=\sum_{x} xf(x) $ 이다.
연속확률변수 X의 확률분포함수가 f(x)일 때, X의 기대값 E(X)는
$E(X)= \int_{-\infty}^{\infty} xf(x)dx$ 이다.
확률변수 $X$의 기댓값을 계산하면 다음과 같다.
$ \mu_X = \frac {10}{28} \times 0 + \frac {15}{28} \times 1 + \frac {3}{28} \times 2 = \frac {21}{28} $
$ \mu_Y = \frac {15}{28} \times 0 + \frac {12}{28} \times 1 + \frac {1}{28} \times 2 = \frac {14}{28} $
확률변수 $X^2$의 기댓값을 계산하면 다음과 같다.
$ E(X^2) = \frac {10}{28} \times 0^2 + \frac {15}{28} \times 1^2 + \frac {3}{28} \times 2^2 = \frac {27}{28} $
$ E(Y^2) = \frac {15}{28} \times 0^2 + \frac {12}{28} \times 1^2 + \frac {1}{28} \times 2^2 = \frac {16}{28} $
확률변수 $XY$의 기댓값을 계산하면 다음과 같다.
$ E(XY) = (\frac {6}{28} \times 1 \times 1) + (0 \times 2 \times 1) + (0 \times 1 \times 2) + (0 \times 2 \times 2) = \frac {6}{28} $
분산(Variance)
확률변수의 분산은 자료의 분포가 평균으로부터 얼마나 산포되어있는지를 표현함.
어떤 확률변수가 평균으로부터 얼마나 떨어져 있는지를 숫자로 표현한 것
확률분포의 모양을 결정짓는 것이 분포인데,
기댓값은 확률변수의 위치를
분산은 기댓값으로부터 얼마나 넓게 퍼져 있는지를 나타냄.
분산의 정의
확률변수 X에 대해 분산 Var(X)는
$Var(X)=E[(X-E(X))^2]$와 같다.
이 때, $E(X)=\mu$라 하면,
$Var(X)=E[(X-\mu)^2]$이다.
분산을 알기 위해서는 기댓값(평균)을 알아야한다.
확률변수 X에서 기댓값을 뺀 값을 편차(deviation)이라고 한다.
분산은 이 편차의 제곱에 대한 기댓값이라고 볼 수 있다.
어떤 값은 평균보다 밑에 존재할수도 있고,
어떤 값은 평균보다 위에 존재할수도 있다.
편차가 양수와 음수가 공존한다는 의미이고, 이 모든 편차를 더하면 0이 나오므로
편차를 제곱한다. 음의 값을 제거하는 것임.
편차 제곱의 기댓값인 분산을 구한 뒤,
음의 값을 제거하기 위해 제곱한 편차를 원상복구해야하므로,
분산에 제곱근을 붙여 다시 작게 만든다.
이것이 표준편차이다.
$ \rho=\sqrt{Var(X)} $
분산의 계산
$Var(X)=E[X^2-2X\mu+\mu^2]$
$Var(X)=E(X^2)-2\mu E(X)+\mu^2=E(X^2)-\mu^2=E(X^2)-E(X)^2$
$Var(X)=\frac {27}{28} - (\frac {21}{28})^2 = 0.401$
$Var(Y)=\frac {16}{28} - (\frac {14}{28})^2 = 0.321$
공분산(Covariance)
공분산은 두 개 또는 그 이상의 랜덤 변수에 대한 의존성을 의미한다.
확률변수 X와 Y에 대해 X가 변할 때 Y가 변하는 정도를 나타내는 값이다.
공분산의 정의
$X$와 $Y$가 랜덤 변수이고, $ \mu_{x}$는 $E(X)$, $ \mu_{y}$는 $E(Y)$라고 하자.
$Cov(X,Y)=E[(X-\mu_{x})(Y-\mu_{y})]$
여기서,
$ \mu_{x}, \mu_{y}$는 각각 X와 Y의 기댓값이다.
$(X-\mu_{x})$와 $(Y-\mu_{y})$는 편차(deviation)이다.
$Cov(X,Y) = E[XY-X\mu_{y}-\mu_{x}Y+\mu_{x}\mu_{y}] $
$Cov(X,Y) = E(XY)-\mu_{y}E(X)-\mu_{x}E(Y)+\mu_{x}\mu_{y}$
$Cov(X,Y) = E(XY)-\mu_{x}\mu_{y}$
$Cov(X,Y) = \frac {6}{28} - \frac {21}{28} \times \frac{14}{28} = \frac {-9}{56} = -0.1607$
같은 변수끼리의 공분산은 결국 분산이다.
$Cov(X,X)=E[(X-\mu_{x})(X-\mu_{x})] = E[X^2-X\mu_x-\mu_xX+\mu_x\mu_x]$
$E(X^2)-\mu_{x}E(X)-\mu_{x}E(X)+\mu_x\mu_x$
$E(X)=\mu_{x}$이므로...
$E(X^2)-\mu_{x}^2=E(X^2)-E(X)^2=Var(X)$
수학적으로 보면,
X의 편차와 Y의 편차를 곱하여 그것의 평균이라는 말이 된다.
특정 샘플의 X라는 특징이 x의 평균보다 크고,
그 샘플의 Y라는 특징이 y의 평균보다 크다면,
특징X - X의 평균 > 0
특징Y - Y의 평균 > 0
둘다 양수이므로 곱해도 양수이다.
이 말은, X가 큰 값을 가질 때, Y도 큰 값을 가진다는 의존성을 보여준다.
이러한 경향이 나타나면, 자연스럽게 반대 방향도 함께 일어난다.
X와 Y의 의존성이 높다는 것은 뭘 의미하는가?
X가 증가할때, Y도 증가하려고 하고,
X가 감소할때, Y도 감소하려고 한다.
이것이 의존성이 높은 것이다.
의존성이 낮다는 것은?
가장 의존성이 낮은 상황은 X와 Y가 서로 독립인 것이다.
X값이 어떻게 되든 Y도 어떤 값이든 가질 수 있다.
X가 높은 값을 가졌을 때, Y값은 랜덤이라는 의미이고
편차의 곱이 양수와 음수가 골고루 나올 것이다. 이것을 평균하면 0에 가깝게 나올 것이다.
Cov는 양수도 음수도 될 수 있다.
이러한 상황이 바로 선형 관계이다.
XY를 곱한 것의 평균이 공분산이 될 수 있다.
독립이면 공분산은 0이다.
공분산이 0이라고 해서 독립은 아니다.
공분산이 0이 되면 두 변수의 선형관계가 없다는 것을 의미하지, 모든 관계가 없다는 것을 의미하지는 않는다.
공분산은 두 변수사이의 관계를 보여주는 정보로 사용된다.
공분산의 가장 큰 단점은 측정 단위에 따라 그 값이 달라진다(not scale-free)
두 변수가 얼마나 연관 되어있는지 그 강도(strength)를 잘 보여주지 못하므로.
측정 단위에 상관없이 두 변수 사이의 관계를 보여주는 상관계수를 사용한다.
상관계수
공분산을 두 확률변수의 표준편차의 곱으로 나눈 값으로 정의한다.
$ \rho(X,Y)=\frac { Cov(X,Y) } { \sigma_{X}\sigma_{Y} } , (-1 \leq \rho(X,Y) \leq 1)$
상관계수는 -1부터 1까지의 값을 갖는다.
$ \rho(X,Y)=1$이면, X와 Y는 완전 비례 관계
$ \rho(X,Y)=-1$이면, X와 Y는 완전 반비례 관계
$ \rho(X,Y)=0$이면, X와 Y는 서로 관련이 없음 (독립)
상관계수의 계산
$ \rho(X,Y)= \frac {-0.1607} { \sqrt {0.401} \sqrt {0.321} } = -0.4479 $
Covariance (COV: 공분산)란?
Cov(X, Y)라는 녀석을 많이 만나 봤을 것이다. 통계학에 온 이상 이런 것들은 아주 기초적이겠지만, 볼 ...
blog.naver.com
https://blog.naver.com/mykepzzang/220837877074
[확률과 통계] 24. 기댓값, Expected Value
이전 포스팅까지 알아봤던 내용을 정리하자면, 기초적인 확률이론 그리고 확률변수 및 확률분포에 대해 알...
blog.naver.com
두 확률변수 X 와 Y 의 결합확률분포에서 공분산과 상관계수 구하기 2-수리통계
1. 두개의 확률변수간의 공분산을 구하기 위해서 계산하기 1) 이산형 확률변수 2) 연속형 확률변수 2. 다음...
blog.naver.com
'기초통계' 카테고리의 다른 글
왜도(Skewness)와 첨도(Kurtosis) (0) | 2020.03.02 |
---|---|
베이즈 이론(Bayes Theorem) (0) | 2020.01.24 |
이산확률변수의 결합확률분포 (0) | 2019.12.12 |
확률질량함수 (0) | 2019.12.12 |
확률(Probability) vs 가능도(Likelihood) (0) | 2019.12.12 |