솔루션
»솔루션»검색 응용 기술

지원 플랫폼

Windows, Linux, Solaris, AIX, HPUX, Mac OS 등

Rosette 지원 언어

  • 그리스어
  • 네덜란드어
  • 노르웨이어
  • 덴마크어
  • 독일어
  • 라트비아어
  • 러시아어
  • 루마니아어
  • 말레이어
  • 불가리아어
  • 세르비아어
  • 스웨덴어
  • 스페인어
  • 슬로바키아어
  • 슬로베니아어
  • 아랍어
  • 알바니아어
  • 에스토니아어
  • 영어
  • 우르두어
  • 우크라이나어
  • 이탈리아어
  • 인도네시아어
  • 일본어
  • 중국어간체자
  • 중국어번체자
  • 체코어
  • 카타로니아어
  • 크로아티아어
  • 타이어
  • 터키어
  • 파슈토어
  • 페르시아어
  • 포르투갈어
  • 폴란드어
  • 프랑스어
  • 핀란드어
  • 한국어
  • 헝가리어
  • 히브리어

검색 기반 어플리케이션을 위한 Rosette

정확도 높은 아시아어, 유럽어 및 중동어 검색을 위한 텍스트 분석

최근 전문검색 (full text search)은 생활의 일부가 되었습니다. 사무실은 물론 가정에서, 혹은 이동 기기를 통해 사용자들은 인터넷에 일상적으로 접속합니다. 이처럼 첨단 기기를 통한 정보 검색은 매우 용이해졌지만, 검색이 이루어지는 내부 과정은 간단하지만은 않습니다. 각 검색엔진은 소위 "컴퓨터 언어학"으로 불리는 복잡한 알고리즘 즉, 디지털 텍스트를 고속 저장, 검색, 추출하는 텍스트 분석 소프트웨어로 이루어져 있습니다.

1998년 이래, 분절처리, 기본화, 복합어 분해, 품사 태깅, 문장경계감지, 명사구 추출을 포함한 필수적인 자연어 처리를 위해 주요 인터넷 및 기업용 검색 엔진들은 Rosette®에 의존해 왔습니다. 이와 같은 역량을 기반으로 당사의 고객은 시장에서 선두를 달리고 있습니다.

“구글이 베이시스 테크놀러지를 선택한 것은 한국어 및 일본어, 중국어 검색엔진을 개발하는데 있어 최고의 아시아어 처리 기술을 구현하기 위해서입니다. 전세계 웹 사용자가 가장 먼저 선택하는 검색엔진으로 자리잡기 위해 이는 결정적이라고 할 수 있습니다.” 구글 펠로우 및 부사장, Urs Hölzle

Rosette 솔루션

Rosette은 다양한 알고리즘을 적용하도록 설계되어 있어 각 언어의 특징적인 사항에 적합한 접근법을 제공합니다. 언어별로 어휘 데이터, 발견론적 규칙, 통계학적 모델을 최적 조합한 알고리즘을 적용함으로써 어플리케이션의 정확성과 속도를 향상합니다.

Rosette Segmentation, POS, and BNP Sample

주요 특징

Rosette은 단일 언어는 물론 다국어 검색에 있어 업계의 어느 기술보다 앞선 성능을 제공합니다. 주요 특징은 다음과 같습니다.

  • 언어 판별: 문서 및 메시지의 언어와 인코딩을 자동 분류합니다.
  • 분절처리/토큰화: 구두점과 특수문자 등, 입력 데이터 고유의 어휘 토큰 경계를 분석합니다.
  • 기본화: 동사 또는 형용사의 굴절형을 위한 사전형 형태소를 생성합니다.
  • 명사 복합어 분해: 복합 명사를 하부 복합어로 분리해 정보의 추출의 정확성을 높입니다.
  • 품사 판별: 명사, 동사, 전치사와 같은 품사를 태그합니다.

향상된 검색 특징

  • 문장 경계 감지 – 개별적 문장의 경계 표기
  • 기본 명사구 분석 – 단일 표현에 쓰인 명사를 포함한 단어의 집합을 판별
  • 사용자가 지정한 정지 단어 (stop words)는 무시
  • 사용자 정의 사전을 지원함으로써 어플리케이션 특유(application-specific)의 단어를 허용
  • 언어 경계 확인자 – 각 언어의 적절한 처리 및 라우팅을 위해 단일 문서 내의 다수 언어 지역을 인식
  • 중국어 스크립트 변환기 – 중국어 텍스트 처리, 한자 변형 및 단어 수준의 차이를 고려한 간체자, 번체자 간의 상호 변환
  • 일본어 표기 변화 대응 모듈 – 일본어 단어의 표기 변화를 표준 규범형으로 표준화

Rosette의 응용 분야

어떠한 대용량 다국어 텍스트 처리에 있어서도 적합한 포괄적 언어 플랫폼 Rosette의 대표적인 응용 분야는 다음과 같습니다.

  • 기업 검색 엔진
  • 웹 검색 기술
  • 아파치 루씬/솔라 솔루션
  • 정보 액세스 플랫폼
  • e-디스커버리 및 디지털 포렌식
  • 문서 및 미디어 개발
  • dtSearch 솔루션
  • 이메일 및 인스턴트 메신저

Rosette 컴포넌트

Rosette은 상기의 언어학적 기술 역량을 제공하는 단일 API입니다. 검색 솔루션에는 일반적으로 다음과 같은 Rosette 컴포넌트가 적용됩니다.

  • Rosette 형태소 분석 시스템 (RBL)
  • Rosette 언어·인코딩 판별 시스템 (RLI)
  • Rosette 언어 경계 확인자 (RLBL)
  • Rosette 유니코드 대응 라이브러리 (RCLU)

시스템 사양

Rosette은 노트북 PC에서 초당 문서 수 천건을 처리하는 멀티 CPU 서버까지 다양한 플랫폼에 적용 가능하며, 이동성 및 확장성이 높은 소프트웨어 개발 키트 (SDK) 입니다.

완전 문서화된 API가 제공되며 이는 C, C++, 자바, 기타 프로그래밍 언어로 작성된 어플리케이션에서 사용하실 수 있습니다. 테스팅용으로 명령어 라인 인터페이스도 제공 가능합니다.

SDK 사용가능 플랫폼으로는 애플 MacOS, 마이크로소프트 윈도우 및 선 솔라리스, 다수의 리눅스 기반 플랫폼이 있습니다.