최근 전문검색 (full text search)은 생활의 일부가 되었습니다. 사무실은 물론 가정에서, 혹은 이동 기기를 통해 사용자들은 인터넷에 일상적으로 접속합니다. 이처럼 첨단 기기를 통한 정보 검색은 매우 용이해졌지만, 검색이 이루어지는 내부 과정은 간단하지만은 않습니다. 각 검색엔진은 소위 "컴퓨터 언어학"으로 불리는 복잡한 알고리즘 즉, 디지털 텍스트를 고속 저장, 검색, 추출하는 텍스트 분석 소프트웨어로 이루어져 있습니다.
1998년 이래, 분절처리, 기본화, 복합어 분해, 품사 태깅, 문장경계감지, 명사구 추출을 포함한 필수적인 자연어 처리를 위해 주요 인터넷 및 기업용 검색 엔진들은 Rosette®에 의존해 왔습니다. 이와 같은 역량을 기반으로 당사의 고객은 시장에서 선두를 달리고 있습니다.
“구글이 베이시스 테크놀러지를 선택한 것은 한국어 및 일본어, 중국어 검색엔진을 개발하는데 있어 최고의 아시아어 처리 기술을 구현하기 위해서입니다. 전세계 웹 사용자가 가장 먼저 선택하는 검색엔진으로 자리잡기 위해 이는 결정적이라고 할 수 있습니다.”구글 펠로우 및 부사장, Urs Hölzle
Rosette은 다양한 알고리즘을 적용하도록 설계되어 있어 각 언어의 특징적인 사항에 적합한 접근법을 제공합니다. 언어별로 어휘 데이터, 발견론적 규칙, 통계학적 모델을 최적 조합한 알고리즘을 적용함으로써 어플리케이션의 정확성과 속도를 향상합니다.
Rosette은 단일 언어는 물론 다국어 검색에 있어 업계의 어느 기술보다 앞선 성능을 제공합니다. 주요 특징은 다음과 같습니다.
어떠한 대용량 다국어 텍스트 처리에 있어서도 적합한 포괄적 언어 플랫폼 Rosette의 대표적인 응용 분야는 다음과 같습니다.
Rosette은 상기의 언어학적 기술 역량을 제공하는 단일 API입니다. 검색 솔루션에는 일반적으로 다음과 같은 Rosette 컴포넌트가 적용됩니다.
Rosette은 노트북 PC에서 초당 문서 수 천건을 처리하는 멀티 CPU 서버까지 다양한 플랫폼에 적용 가능하며, 이동성 및 확장성이 높은 소프트웨어 개발 키트 (SDK) 입니다.
완전 문서화된 API가 제공되며 이는 C, C++, 자바, 기타 프로그래밍 언어로 작성된 어플리케이션에서 사용하실 수 있습니다. 테스팅용으로 명령어 라인 인터페이스도 제공 가능합니다.
SDK 사용가능 플랫폼으로는 애플 MacOS, 마이크로소프트 윈도우 및 선 솔라리스, 다수의 리눅스 기반 플랫폼이 있습니다.