언어 판별 모듈


Instantly Identify and triage many languages within large volumes of text.

언어 식별 및 인코딩 변환

Rosette® Language Identifier(RLI)는 문서 내의 텍스트를 스캔하여, 매우 빠르고 정확하게 작성된 언어와 문자 인코딩을 확인하고 찾아냅니다. 자동 언어 식별은 방대한 분량의 텍스트 처리 작업을 간소화하며, 이는 수많은 언어로 작성된 텍스트를 범주화, 검색, 처리 및 저장하는 응용프로그램에 필요한 과정입니다. 개별 문서들은 언어 전문가에게 전달하거나, 워크플로 효율성을 높이기 위해 자동으로 태그가 지정될 수 있습니다. 이 프로세스는 검색 결과의 질을 향상시키기 위해, 언어별 검색 엔진 플러그인(예: Rosette Base Linguistics)과 함께 결합되어질 수도 있습니다.

RLI는 통계학적 분석으로부터 파생된 풍부한 정보적 언어 프로필을 포함하고 있는 자체 개발 알고리즘을 통해 놀라운 정확도를 얻습니다. 언어와 테크놀로지를 동시에 다루는데 있어서 깊은 이해도를 지닌 언어학 전문가 그룹으로써, Basis Technology는 언어 추가, 기능 업데이트 및 학계의 최신 혁신을 통해 Rosette 제품군을 꾸준히 개선해 오고 있습니다.


제품

주요 기능

  • 단순 API
  • 뛰어난 확장성과 처리량
  • 강력한 지원
  • 간편한 설치
  • 유연성 및 사용자 지정 가능
  • 통합: Java, C++, 또는 웹 서비스
  • 플랫폼: Unix, Linux, Mac, PC(64 또는 32비트)
  • Rosette SDK 컴포넌트

188

개의언어/인코딩 조합


55

개의 언어(유니코드 사용)


7

라틴어 스크립트변형 (음역)


44

레거시인코딩

RLI 데모 비디오

  • 알바니아어 — ISO-8859-1, Windows-1252
  • 아랍어 — ISO-8859-6, Windows-720, Windows-1256
  • 아랍어(음역) — ISO-8859-1, Windows-1252, Windows-1256
  • 벵골어 — ISCII-Bengali
  • 불가리아어 — ISO-8859-5, Windows-1251, KOI8-R
  • 카탈로니아어 — ISO-8859-1, Windows-1252
  • 중국어(간체) — GB-2312, GB-18030, HZ-GB-2312, ISO-2022-CN
  • 중국어(번체) — Big5, Big5-HKSCS
  • 크로아티아어 — Windows-1250
  • 체코어 — ISO-8859-2, Windows-1250
  • 덴마크어 — ISO-8859-1, Windows-1252
  • 네덜란드어 — ISO-8859-1, Windows-1252
  • 영어 — ISO-8859-1, Windows-1252
  • 에스토니아어 — ISO-8859-13, Windows-1257
  • 핀란드어 — ISO-8859-1, Windows-1252
  • 프랑스어 — ISO-8859-1, Windows-1252
  • 독일어 — ISO-8859-1, Windows-1252
  • 그리스어 — ISO-8859-7, Windows-1253
  • 구자라트어 — ISCII-Gujarati
  • 히브리어 — ISO-8859-8, Windows-1255
  • 힌디어 — ISCII-Hindi
  • 헝가리어 — ISO-8859-2, Windows-1250
  • 아이슬란드어 — ISO-8859-1, Windows-1252
  • 인도네시아어 — ISO-8859-1, Windows-1252
  • 이탈리아어 — ISO-8859-1, Windows-1252
  • 일본어 — EUC-JP, ISO-2022-JP, Shift-JIS, Shift-JIS-2004 (JIS X 0213)
  • 칸나다어 — ISCII-Kannada
  • 한국어 — EUC-KR, ISO-2022-KR
  • 쿠르드어 — Windows-1256
  • 쿠르드어(음역) — ISO-8859-1, Windows-1252, Windows-1256
  • 라트비아어 — ISO-8859-13, Windows-1257
  • 리투아니아어 — ISO-8859-13, Windows-1257
  • 마케도니아어 — ISO-8859-5, Windows-1251
  • 말레이어 — ISO-8859-1, Windows-1252
  • 말라얄람어 — ISCII-Malayalam
  • 노르웨이어 — ISO-8859-1, Windows-1252
  • 파슈토어 — ISO-8859-6, Windows-1256
  • 파슈토어(음역) — ISO-8859-1, Windows-1252
  • 페르시어어 — ISO-8859-6, Windows-1256
  • 페르시아어(음역) — ISO-8859-1,Windows-1252, Windows-1256
  • 폴란드어 — ISO-8859-2, Windows-1250
  • 포르투갈어 — ISO-8859-1, Windows-1252
  • 루마니아어 — ISO-8859-2, Windows-1250
  • 러시아어 — ISO-8859-5, Windows-1251, KOI8-R, IBM-866, Mac Cyrillic
  • 세르비아어 — ISO-8859-5, Windows-1251
  • 세르비아어(음역) — ISO-8859-2, Windows-1250
  • 슬로바키아어 — Windows-1250
  • 슬로베니아어 — Windows-1250
  • 소말리아어 — ISO-8859-1, Windows-1252
  • 스페인어 — ISO-8859-1, Windows-1252
  • 스웨덴어 — ISO-8859-1, Windows-1252
  • 타갈로그어 — ISO-8859-1, Windows-1252
  • 타밀어 — ISCII-Tamil
  • 텔루구어 — ISCII-Telugu
  • 태국어 — Windows-874
  • 터키어 — ISO-8859-9, Windows-1254
  • 우크라이나어 — ISO-8859-5, Windows-1251, KOI8-R
  • 우르두어 — ISO-8859-6, Windows-1256
  • 우르두어(음역) — ISO-8859-1, Windows-1252
  • 우즈베크어 — ISO-8859-5, Windows-1251, KOI8-R
  • 우즈베크어(음역) — Windows-1251
  • 베트남어 — TCVN, VIQR, VISCII, VNI, VPS
코드 베이스
C++
Web Services
Java
Microsoft .Net
지원 플랫폼
Windows
Linux
Red Hat
Mac

주요 고객사


식별 기능

  • 문서의 주요 혹은 지배  언어 식별
  • 문서 내에서 라틴어 및 키릴어와 같은 언어 스크립트 식별
  • 다국어 문서 내에서 언어와 그 언어의 사용 비율 확인
  • 라틴어 스크립트로 작성된 아랍어 채팅과 같은 음역된 문서에서 작동 가능

언어 경계 로케이터

RLI - RBL

디지털 텍스트는 흔히 동일한 문서 내에서 여러 언어로 작성되어, 컴퓨터와 사람 모두에게 어려움을 줍니다. RLI는 영어, 프랑스어, 독일어 혹은 이탈리아어와 같이 모든 언어가 동일한 스크립트로 작성되어 있다 할지라도, 다국어 문서에 사용된 각 언어에 대하여 텍스트에 시작 및 끝 마커를 지정합니다. 라틴어, 키릴어, 일본어 카나 혹은 중국어 한자와 같은 각 문자 표기 체계의 경계 역시 감지됩니다.

인코딩 변환

RLI-Unicode

XML과 같은 현대의 텍스트 인코딩 표준은 유니코드 사용을 명기하고 있지만, 수많은 기존 응용프로그램, 문서, 웹사이트 및 데이터 스트림은 아직도 ASCII, ISO 8859-1, Shift-JIS 등과 같은 “레거시 인코딩”을 사용하고 있습니다.

Rosette는 이와 같은 레거시 인코딩으로 작성된 방대한 텍스트를 유니코드 표준을 사용하는 단일, 통일된 포맷으로 정확하게 변환합니다. 이렇게 변환된 텍스트는 어떠한 언어에서도 사용될 수 있으며, 호환되지 않는 코드로 인해 발생하는 데이터 손상이나 기타 문제를 없앨 수 있습니다.


Rosette을 귀사의 어플리케이션으로 통합하는 것에 대해 더 자세한 정보가 필요하시면 연락하여 주십시오.

This is a unique website which will require a more modern browser to work! Please upgrade today!