CMS솔루션마켓, 이온디 - 워드프레스, 라이믹스, 카페24, 그누보드, 엑셀

프리랜서 커뮤니티

트위터를 서칭하다. 팔로워들이 소개해준 프로젝트중 눈에 띄는 프로젝트가 있어서 소개해 볼까한다? 일명 "은전한닢 프로젝트"로 검색 환경에서 쓸만한 오픈 소스 기반의 한국어 형태소 분석기를 만들자는 프로젝트이다. 해당 프로젝트는 형태소 분석 엔진인 MeCab(메카브)와 연계 되는 프로젝트로, 이미 야후 출신의 유명한 개발자인 더그 커팅이 시작한 "루씬 (Lucene)" 프로젝트에도 활용 할 수 있는 프로젝트라고 한다. 

 

[이미지출처: 내 엽전(葉錢)의 가치는? 복(福) 금섬(金蟾)이란? ]

 
이 프로젝트는 이용훈, 유영호 기여자에 의해서 진행되고 있는 프로젝트로, 검색 엔진 색인기에서 쓸 수 있는 적당한 품질과 속도의 공개 라이센스로 공개 된 프로젝트의 목적에서 출발했다고 한다. 

이미 이 프로젝트 이외에  한나눔이나 꼬꼬마(kkma) 분석기 프로젝트등이 진행되고 있긴하지만, 형태소 분석기임에도 띄어씌기 구분의 오류나 공개 소스를 구하기 어렵다는 문제등의 문제들이 있어 이런 문제에 어떤 기여를 할 수 있을 것인지 고민하는 차원에서 이 프로젝트가 시작된 것이다.

실제 21세기 세종 계획의 일환으로 국민의 세금을 들여서 국가에서 만든 지능형 형태소 분석기도 있지만, 소스 공개는 물론, 가장 중요한 형태소 사전 파일등이 암호화 되어 공개되 있다는 점도 "은전한닢" 프로젝트를 시작하는 중요한 동기를 제공한 것으로 보인다. 해외의 경우 각 대학이나 연구 기관에서 개발한 다양한 형태소 엔진과 자료들이 오픈소스로 공개되 활용되는데 반해서 한국은 그런 해외 사례와는 대비되는 모습을 보여왔던게 사실이다. 

이런 해외의 오픈 프로젝트 사례의 연장 선상에서 이 프로젝트를 볼 수 있지 않을까 생각된다. 

 

은전한닢 프로젝트와 MeCab(메카브)

 

이 프로젝트 시작하면서 이 두 기여자가 주목 한 것은 오픈 소스 일본어 형태소 분석기로 공개 된 MeCab(메카브)라는 엔진이었다. MeCab 설명서 분석하는 과정에서 일본어 뿐만이 아니라 한국어 형태소 분석도 가능하다고 보았고, 실제 테스트 과정에서도 이를 확인해 이 오픈 소스를 활용한 한국형 형태소 분석기 프로젝트를 시작한 것이다. 

 

 

[MeCab의 특징]
  • 언어, 사전 코퍼스에 의존하지 않는 범용적인 설계
  • 품사 독립적 설계
  • CRF 채용하여 HMM 보다 성능 향상
  • CRF 값 추정 가능
  • Double-Array TRIE
  • 각종 스크립트 언어 바인딩 (perl / ruby​​ / python / java / C#)
 

MeCab(메카브)의 장점은 여러 장점이 있지만, 다양한 언어에 대응이 가능한 시스템일 것이다. 또, 일본어와 한국어의 유사점이 있기 때문에 품사 독립적 설계 같은 장점들을 활용 할 수 있다는 점도 매력적이었을 것으로 보인다. 

 

 

이들은 실제 "나는 밥을 먹었다"를 분석했는데, 정상적인 분석이 가능했다고 한다.

 

다른 형태소 분석 프로젝트는 없나?

은전한닢 이외에도 루씬 기반으로 한국의 형태소 분석의 권위자인 강승식 교수가 제안한 논문을 기반으로 만든, "Lucene KoreanAnalyzer"프로젝트도 있는데, 서울대 출신의 개발자가 만든 프로젝트도 있다. 오픈소스 검색 엔진인 Nutch나 Solr 등을 이용해 이 분석기를 연동해 사용하는 기업도 있는 것을 생각하면, 이 프로젝트도 눈여겨 볼 필요가 있다. 

물론, 직접적인 테스팅이 진행된 것은 아니라서 어떤 프로젝트가 더 우위에 있는 것인가 하는 의문은 남지만, 두 프로젝트 모두 각각의 가치에 따라 발전하고 있고, MeCab(메카브)는 일본쪽 엔진을 활용하고 있다는 점에서 이 두 프로젝트가 한국형 오픈 소스 형태소 분석기 개발 상당한 기여를 할 수 있다는 생각도 해볼 수 있을 것이다. 

문제는, 형태소 분석기라기 보다는 형태소 분석기가 제대로 동작하기 위한 말뭉치 사전이 매우 중요한데, 이에 대한 공론화등이 꽤 필요하지 않을까 생각된다. 개인이나 기업등이 만든 말뭉치야 저작권 문제등에 의해서 사용에 제약이 따를 수 밖에 없지만, 세종 계획등으로 만든 국가 프로젝트는 최소한 더 많은 개발 프로젝트에 활용 될 수 있게 GPL, LGPL 등으로 공개하면 어떨까 싶ㅈ다. 

 

향후 은전한닢 프로젝트의 발전 방향은?

이 프로젝트는 크게 형태소 분석기, 루씬/Solr용 Toknizer, 온라인 형태소사전 관리 시스템 등르로 구분해 개발하고 있는데, 엔진 자체나 분석기의 고도화도 중요하겠지만, 온라인 형태소 사전 관리 시스템의 개발 방향이 어떤 가치를 만들지 궁금해지는 대목이다. 꼬꼬마 프로젝트도 온라인 형태소 사전을 지원하는데, 데이터 활용등에 상당한 제약이 있는듯 보이는데, 바로 이런 점들이 향후 좀 더 오픈화되고 참여형으로 개발될 수 있게끔 현재의 방향성을 잘 지켜가주길 바라는 마음이다. 

실제 서비스를 개발하고 만들다 보면, 자체 검색 엔진 구축고 검색 품질 향상등에도 상당한 시간과 개발을 투자하게 되는데, 품질 좋은 형태소 분석기가 오픈소스로 풀린다면, 한국 IT 산업 자체가 좀 더 다양한 가능성을 만들어 낼 수 있지 않을까 싶으며, 이번 글을 마무리 짓는 바이다. 

 

[이미지 출처: 은전한닢 프로젝트 마인드맵]