기본언어 분석 모듈


Improve the speed and accuracy of your search application with advanced linguistic analysis.

높은 정확도로 수많은 언어 검색

영어를 포함한 모든 언어는, 검색 어플리케이션이 관련성이 있고 정밀한 결과를 도출해 내는 데 있어서 고유하고 어려운 장애물들을 내포하고 있습니다. Rosette® Base Linguistics(RBL)는 언어 서비스의 완벽한 세트를 제공함으로써, 기업 어플리케이션들이 다양한 언어로 된 텍스트를 효과적으로 검색하거나 처리할 수 있도록 해줍니다. RBL은 동급 최강의 자연어 처리와 속도 및 정확성 향상을 위해 원래 언어로 된 원본 텍스트의 질을 향상 시킵니다.

언어와 테크놀로지를 동시에 다루는데 있어서 깊은 이해도를 지닌 언어학 전문가 그룹으로써, Basis Technology는 언어 추가, 기능 업데이트 및 학계의 최신 혁신을 통해 Rosette 제품군을 꾸준히 개선해 오고 있습니다.

40

개의
언어 지원

  • 서부 유럽
  • 카탈로니아어
  • 체코어
  • 덴마크어
  • 네덜란드어
  • 영어
  • 핀란드어
  • 프랑스어
  • 독일어
  • 그리스어
  • 이탈리아어
  • 노르웨이어
  • 포르투갈어
  • 스페인어
  • 스웨덴어
  • 동부 유럽
  • 알바니아어
  • 불가리아어
  • 크로아티아어
  • 에스토니아어
  • 헝가리어
  • 라트비아어
  • 폴란드어
  • 루마니아어
  • 러시아어
  • 세르비아어
  • 슬로바키아어
  • 슬로베니아어
  • 터키어
  • 우크라이나어
  • 중동
  • 아랍어
  • 히브리어
  • 파슈토어
  • 페르시아어
  • 우르두어
  • 아시아
  • 중국어(간체)
  • 중국어(번체)
  • 인도네시아어
  • 일본어
  • 한국어
  • 말레이어
  • 태국어
코드 베이스
C++
Web Services
Java
Microsoft .Net
지원 플랫폼
Windows
Linux
Red Hat
Mac

Mac

주요 기능

  • 단순 API
  • 뛰어난 확장성과 처리량
  • 강력한 지원
  • 간편한 설치
  • 유연성 및 사용자 지정 가능
  • 통합: Java, C++, 또는 웹 서비스
  • 플랫폼: Unix, Linux, Mac, PC(64 또는 32비트)
  • Rosette SDK 컴포넌트
  • 사용자 사전, 문자 정규화 및 스크립트
    전환과 같은 사용자 지정 기능

주요 고객사

고급 형태학적 기능

토큰화

토큰화

많은 검색 도구들은 단어 사이에 공백 없이 쓰인 언어를 이해하기 위해 이중자를 사용합니다. 그 결과 색인의 크기가 증가하고 관련성이 감소됩니다. 하지만 이와 대조적으로, RBL은 고급 통계 모델링을 통해 각 단어를 정확하게 식별하고 분리합니다. 이러한 결과에 따른 토큰 출력(분절이라고도 함)은 색인 크기를 최소화하며, 검색 정확도를 향상시키고, 관련성을 높입니다.

Tokenization Example

기본화(LEMMATIZATION)

Lemmatization

대부분의 검색 엔진은 단어 끝에 있는 문자를 잘라내는 원시적인 방법으로 중요하지 않은 차이점들을 제거합니다. 스테밍(Stemming)이라고 하는 이 방법은 흔히 추가 리콜과 낮은 정밀도를 초래합니다. 이러한 방법 대신에, RBL은 어휘, 문맥 및 고급 형태학적 분석을 통해 각 단어의 사전적 형태[표제어(Lemma)]를 찾습니다. 어근 형태를 색인화할 경우, 검색 관련성이 높아지며, 영향을 받은 모든 형태를 색인화하지 않음으로써 검색 색인 또한 간소화할 수 있습니다. 대체 표제어를 사용한 색인화의 보완 또한 가능합니다.

Lemmatization Example

명사구 추출

Noun Phrase Extraction

특정 명사, 특히 고유 명사는 단일 엔티티로 식별하기에 매우 까다로울 수 있습니다. RBL은 명사와 그 수식어를 그룹화하며, 이는 문서 클러스터링과 개념 추출에 유용합니다.

품사 태깅

Parts of Speech Tagging

기본화 과정의 일부로서, 통계학적 모델링이 모호한 단어까지도 포함하여 정확한 품사를 결정하기 위해 사용됩니다. 그 후, 각 토큰에는 향상된 이해와 검색 관련성을 위해 태그가 지정됩니다.

복합어 분해

Decompounding

RBL은 복합어를 하위 컴포넌트로 나누고 색인화할 각 개별 요소를 제공합니다. 이 작업은 독일어 및 한국어와 같은 언어에서 검색 관련성을 높이는 데 특히 유용합니다.

예: 독일어

Samstagmorgen은 Samstag(토요일)와 morgen(아침)으로 이루어진 복합어입니다. 복합어 분해는 “Samstag”를 검색할 경우 적합한 일치 항목을 찾을 수 있게 해 줍니다.

문장 감지

Sentence Detection

구두점 사용이 분명하지 않을 경우라도, 각 문장의 시작과 끝이 자동으로 식별됩니다.


Rosette Base Linguistics으로의 통합에 대해 궁금하시다면 연락하여 주십시오.

This is a unique website which will require a more modern browser to work! Please upgrade today!