알고리즘

명사추출기

Jack Moon 2012. 8. 20. 16:21

 

 

검색엔진에서 인덱스 생성시 사용하는 구문분석기와는 조금 다르다. 명사만을 추출하려는 용도로 명사추출기를 개발하려고 한다.

2가지 접근법이 있는데 광범위한 명사사전을 만들어 명사를 추출하는 방법이 있고,  

명사의 주요 특징을 간추려 후절어(조사)를 제외하고 명사를 추출하는 방법이 있다.

 

첫번째 방법의 경우 새로운 명사 생성시 누락이 된다는 점과 광범위한 사전때문에 퍼포먼스를 많이 차지한다는 단점이 있어 두번째

방법을 선택했다.

 

필수 사전은 세가지이다.

1. 명사가 아닌 단어를 구분하는 사전 (형용사, 동사, 부사등은 제외시키는 용도)

2. 필수명사 사전으로 조사를 제외하기전 필수명사 사전에 있는 명사는 무조건 추출한다. (왜냐하면 "불만의" 란 단어의 경우 "만의" 조사가 빠지며 불이란 단어만 남기 때문에 조사 생략전 필수명사 사전을 거치는 것이다.)

3. 조사사전을 통해 명사에 포함된 조사를 제외하고 명사를 추출한다. 

 

 

 

'알고리즘' 카테고리의 다른 글

소셜미디어 소비자글 필터링  (0) 2012.09.04