데이터 분석에서 log의 중요성
데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석)에서 정확한 값을 얻기 위함이다.
데이터 간 편차를 줄여,
왜도(skewness, 데이터가 한쪽으로 치우친 정도)와 첨도(kurtosis, 분포가 얼마나 뾰족한지를 나타내는 정도)를 줄일 수 있기 때문에 정규성이 높아진다.
예시)
연령 같은 경우 숫자의 범위 0세~120세 이하겠지만,
재산보유액 같은 경우에는 0원에서 몇 조 단위까지 올라갈 수 있음. 즉, 데이터 간 단위가 달라지면 결과값이 이상해질 수 있다.
log의 역할은 큰 수를 같은 비율의 작은 수로 바꿔주는 것이다.
log는 큰 수를 작게 만들고 복잡한 계산을 간편하게 하기 위해 사용한다.
로그를 취하는 순간 그 수는 지수가 되어버리니, 값이 작아진다.
예를 들어, $ 100=10^{2} $이다.
100에 상용로그를 취한다면 100을 10을 밑으로 하는 지수가 있는 값의 그 지수로 나타낸다.
그래서 100에 상용로그를 취하면 2가 된다. -> $ log_{10}2$ 또한 로그를 취하면 로그의 성질에 의해 곱하기가 더하기로, 나누기가 빼기로 바뀐다.
데이터 분석 시 식에 로그를 취하는 이유
데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다. 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜..
leebaro.tistory.com
'기초통계' 카테고리의 다른 글
최대 우도 추정법(MLE) 예시 (0) | 2019.12.12 |
---|---|
MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posterior) (0) | 2019.12.11 |
결합확률분포(추후 업뎃) (0) | 2019.12.01 |
베르누이 분포(Bernoulli Distribution) (0) | 2019.11.26 |
가우시안 분포(Gaussian Distribution) (0) | 2019.11.26 |