형태소 분석이 필요한 이유

정보검색 · 2019. 12. 3. 16:41

'대학생선교회' 에서 키워드를 추출하면,

 

대학생, 선교회 가 정답일까
대학, 생선, 교회 가 정답일까
대, 학, 생, 선, 교, 회 가 정답일까

 

'대학생' 이라는 검색어에서 첫번째는 위의 문장을 찾아낼 수 있다.

두번째는 찾기 힘들어 보인다.

세번째는 연산해야할 키워드가 너무 많다.

 

형태소 분석은 불필요한 단어를 걸러내는 것이다.

영어에서는 좀더 단순하게 stopping stemming 과정만을 거치면 된다.

 

그러나 한글은 언어의 복잡성으로 그렇지가 않다.

 

'아버지가방에들어가신다' 를 분석할 경우,

띄어쓰기 보정을 한 다음 키워드를 추출해야 좋은 검색 결과를 얻을 수 있을 것이다.

 

그리고 이런 사전 작업이 색인시에 잘 이루어 져야 좀더 정확한 검색 결과를 얻을 수 있음.

 

예를 들어 문서가 1000 개가 있습니다. 이 문서에서 키워드를 모두 추출하였습니다.

 

10번 문서에서 서로 다른 단어가 50개가 발견이 되었고 그중 '리눅스' 라는 단어가 100번 나왔고 '윈도우' 라는 단어는 50번 나왔습니다.

 

즉 10번째 문서만 놓고 보면 '리눅스'가 좀더 비중있게 다루어 졌다고 볼 수 있습니다.


20번 문서에서 서로 다른 단어가 50개가 발견이 되었고 그중 '리눅스' 라는 단어는 20번 나왔고 '윈도우' 라는 단어는 50번 나왔습니다. 즉 20번째 문서만 놓고 보면 '윈도우'가 좀더 비중있게 다루어 졌다고 볼 수 있습니다..

 

그리고
1000개 문서 전체에서 '리눅스'는 100000번 발견되었고 '윈도우'는 100번 발견되었다고 하면..

 

마지막으로 검색어가 '리눅스' and '윈도우' 가 되었다면,

 

수치상으로 보면 10번 문서가 20번 문서보다 정확도가 높아 보입니다.

 

하지만 통계적으로 보면 '리눅스'는 거의 모든 문서에서 고루 발견되기 때문에 범용적 단어라고 가정할 수가 있습니다. - 어디까지나 가정이다.
이런 가정하에 20번 문서가 10번 문서보다 좀더 정확하다고 검색엔진은 인식을 합니다. (일반적인 역문서 빈도 계산법)

 

즉, 정확한 단어가 추출되지 않는다면 통계기반의 문서 정확도 산출에 오류가 많이 발생을 하게되어 검색결과의 정확도가 그다지 높아지지 않는 결과가 나온다.

 

 

출처 : http://kldp.org/node/75489  qprk님의 답변