최소자승법과 직교투영

머신러닝과 딥러닝 · 2019. 12. 31. 14:29

최소자승법이라는 것은 Least Squares Solution이다.

 

다원일차연립방정식에서 Over-determined linear system은 해가 존재하지 않는다.

 

찾고싶어하는 미지수를 $ x_{1}, x_{2} $로 둔다.

coefficient로 두고 벡터들을 span한다.

 

해가 존재하지 않으니까 찾을 수 없다가 끝이 아니다.

해는 없지만... 가장 근사하는 $ x_{1}, x_{2} $은 무엇인가? 가 포인트이다.

 

선형결합하는 하나의 벡터 $ Ax $

우변에 주어진 벡터 $b$

 

두 개의 차이 $ Ax - b $ 이 또한 하나의 벡터가 된다. 에러 벡터라고 불러도 된다.

 

최소로 한다는 것은 

벡터에서 그 크기를 정의하는 것을 norm으로 배웠다.

norm을 최소로 하게 하는 x를 찾는 문제로 바꾸자.

 

 

최적화 문제 해를 찾는 것을 최소자승법이라고 한다.

이것의 기하학적 의미는 다음과 같다.

$ \vec {A_{1}}, \vec {A_{2}} $ 벡터는 아래와 같다.

$ B $ 는 일반적으로 이 평면상에 존재하지않는 다른 3차원 공간상의 벡터일 것이다.

 

$ \vec {A_{1}}$ 와  $ \vec {A_{2}} $가 선형결합된 무수한 벡터들이 평면상에 많이 존재 할 텐데 

우리가 관심있는 것은 에러를 최소로 하는...

 

l2 norm의 제곱

 

기하학적으로 봤을 때 수선의 발을 내린 지점이 최소가 된다.

 

평면에 투영한다. 

 

투영을 어떻게 하는가?

직교투영

 

$ \vec {X}, \vec {Y} $가 주어져있을 때,

$ \vec {X}$를 Y축으로 투영을 시킬때 벡터를 $ \vec {W} $라 하겠다.

 

빨간선이 최소가 되는 지점은 90도 일때다.

$ \vec {X} - \vec {W} $와 $ \vec {Y} $가 수직이다.

 

수직이라는 것은

벡터의 내적이 0이라는 것이고

행렬에서는 트랜스포즈와 같은 것이다.

 

$ \vec {W} $는 방향은 정해져있음 $ \vec {Y} $와 같다.

방향성을 가지고 크기로 나누어서 방향만 가지는 유닛벡터라고 생각할 수 있다.

새로운 $ \omega $ 오메가 스칼라를 정의한다. 

찾고 싶은 것은 오메가를 찾고 싶은 것

 

결국 X,Y가 주어졌을때 

X를 Y 직교 투영했을때 위와 같이 찾을 수 있다.

 

 

벡터와 벡터의 내적이기 때문에 하나의 숫자이다.

        

$ W= \frac { Y^T X } { Y^T Y } Y = \frac { \langle X,Y \rangle } { \langle Y,Y \rangle} Y $

 

맨 오른쪽 변에서

 

$ \omega $ (오메가)는 $ \vec {Y} $ 와 방향성이 같다

$ \vec {Y} $ 의 stretch/compress라고 보면된다.

 

$ \frac {\langle X, Y \rangle }{\langle Y,Y \rangle} $ 의 기하학적의미가 무엇이냐?

 

X와 Y의 inner product 

Y와 Y의 inner product

 

X와 Y의 inner product -> X와 Y가 얼마나 유사한지를 나타내는 정도라고 표현할 수 있다. 

X가 Y와 같다면 1이 되어버린다.