소셜미디어 분석

소셜 미디어 모니터링을 위한 Rosette

40여개 이상의 언어에서 소셜 미디어 분석 가능

현재 소셜 미디어는 세계적으로 큰 인기를 끌고 있으며, 전 세계의 사람들은 다양한 언어를 사용해 온라인에서 소통하고 있습니다. 작년 트위터 상의 전체 트윗(tweet)의 절반 정도만이 영어로 작성되었으며, 페이스북의 경우 사용자의 75%가 미국 이외의 지역에 위치하고 있다는 분석이 더 이상 놀라운 결과가 아닌 것이 사실입니다. 이에 따라 다양한 소셜 미디어 서비스의 데이터를 소화하고 분석하기 위해 다수의 어플리케이션이 개발되고 있습니다.

소프트웨어 개발 키트(SDK)인 Rosette®은 이러한 어플리케이션들이 세계 주요 40여개 언어로 작성된 텍스트 상에서 효과적으로 작동할 수 있게 합니다. Rosette은 이들 소셜 미디어 어플리케이션에 신속히 통합되어 트위터, 페이스북, 링크드인을 비롯한 기타 소셜 미디어 채널의 다국어 데이터를 분석하는데 있어 개발자들에게 큰 이점을 제공하고 있습니다.

social-media-monitoring-app
Rosette 언어 처리 플랫폼은 소셜 미디어 분석이 인커밍 피드(incoming feed)의 언어를 확인하고, 문장의 감성 분석 및 메타데이터를 위한 엔티티 추출을 수행하며, 검색 결과를 향상시킬 수 있도록 합니다.

트윗, 블로그 및 리뷰 컨텐츠의 언어 확인

소셜 미디어 컨텐츠를 정제하고 수집하는 일은 언어 확인에서 시작됩니다. 하지만 위치를 기반으로 한 사용자 지정 언어 환경은 게시된 글의 실제와 다를 수 있습니다. 당사의 언어 판별 모듈은 처리량과 정확성에서 고도의 성능을 보이며 55개 언어 판별 능력을 갖추고 있습니다. 언어 판별 모듈은 블로그, 제품 리뷰 및 일일 1억 4천 개에 달하는 트위터 파이어호스(firehose) 등 전례 없이 엄청난 양의 데이터를 다룰 수 있도록 설계되었습니다.

의미론적 분석 및 감성 분석을 지원하는 텍스트 분석

의미론적 및 감성 분석은 문장 상의 모든 단어의 분석을 요구합니다. 영어, 포르투갈어, 일본어, 스페인어, 네덜란드어 등의 언어에서 Rosette의 언어 분석은 다음과 같은 기능을 수행합니다.

  • 품사 태깅
  • 단어의 기본화 (단어의 사전 형태 파악)
  • 문장 경계 탐지
  • 명사구 추출

고급 필터링 기능의 메타데이터 추가를 위한 키워드 확인

당사의 엔티티 추출 모듈은 각 포스팅, 기사 및 소셜 미디어 상의 대화 내용의 메타데이터에 사람, 장소, 기업 및 제품명 등 추출된 키워드를 부여합니다. 그리하여 소셜 미디어 분석 어플리케이션은 메타데이터의 키워드를 기반으로 데이터를 필터링할 수 있습니다. Rosette® 엔티티 추출 모듈은 자동적으로 18개 유형의 키워드에 대한 메타데이터를 12개 이상의 언어에서 생성합니다. 그 밖의 키워드를 찾기 위해 개발자의 요구에 따라 엔티티 추출 모듈을 사용자 지정 하실 수 있습니다.

키워드 레벨에서의 감성 분석 지원

최신 감성 분석 공급업체들은 감성의 초점을 문서보다는 키워드에 맞추는 추세입니다. 이 방법을 통해 브랜드 또는 제품, 이들의 주요 특징에 대한 소비자들의 의견을 좀 더 명확하게 이해할 수 있습니다. Rosette은 북남미, 유럽, 아시아 및 중동의 주요 언어에서 정확하고 광범위한 엔티티 추출 기능을 기반으로 의미론적 분석 또는 감성 분석 시스템을 제공합니다.

spa-review

검색 결과 간소화를 위한 클러스터링

Rosette의 문서 클러스터링 기능을 통해 소셜 미디어 컨텐츠 애그리게이터(aggregator) 서비스의 사용자는 더욱 다채로운 경험을 얻을 수 있습니다. 유사한 대화나 포스팅을 하나씩 구독하기 보단 묶어서 사용자가 한 눈에 볼 수 있는 리뷰 기능을 제공합니다. 또한 그룹 내의 아이템 갯수는 주제나 제품의 트렌드, 소셜 미디어 상의 스팸 노출을 나타내게 됩니다.

클러스터링 기능은 대량의 트윗을 인덱싱하는 경우 리트윗(retweet)과 같은 유사 포스팅을 감지함으로써 불필요한 처리 과정을 방지해 줍니다.

소셜 미디어 컨텐츠에 대한 검색 향상

검색의 성능이 데이터 피드의 품질을 결정합니다. 어느 언어에 대한 검색이든지, 인덱스 및 쿼리 단계에서 언어 프로세스를 추가한다 하더라도 정확성에는 거의 영향을 주지 않고 관련 검색 결과수를 증가시킬 수 있습니다. 당사의 기본언어 분석은 단어별 표제어(단어의 사전 형태)를 생성해 이를 인덱싱 단계에서 제공합니다. 어근 찾기 등을 사용하는 다른 방법들의 경우, 표면적인 공통성만을 찾아냄으로써 연관성이 낮은 검색 결과를 도출할 가능성이 높습니다.

  • 표제어를 공유하는 연관된 단어의 예: “speak(말하다)”, “speaking(말하는)”, “spoke(말했다)”, “speaks(말하다)”
  • 공통 표제어: “speak(말하다)”
  • 어근을 공유하는 연관성이 없는 단어의 예: “severed(절단된)”, “several(많은)”
  • 공통 표제어: “sever(자르다)”

언어 인지적인 기본화 접근법(language-aware approach of lemmatization)은 현재 주요 기업 및 웹 검색 엔진에서 사용되어지고 있습니다.

제품명 및 인명 추적

소셜 미디어 포스팅은 일상의 대화체가 그대로 사용되는 경우가 많으며 이름과 별명에 오자가 많습니다. 이름의 변형을 찾아내는 것은 평판에 대한 추적이나 브랜드 분석에 필수적인 요소입니다. 당사의 인명·지명 조합 모듈은, 예를 들어, “Madonna(마돈나)”에 대한 모든 연관 포스팅을 검색하는 경우, 철자가 “マドンナ(마돈나)”, “Madonna Ciccone(마돈나 치콘)” 또는 “Madona(마도나)”로 쓰여 졌다 할지라도 모두 검색해 줍니다. 또한, 본 시스템은 별칭, 인명·지명의 누락된 요소, 철자 오류, 변형, 순서가 뒤바뀐 경우는 물론 다른 언어로 작성된 인명·지명 등도 처리합니다.

steve-jobs-name-search

“Steve Jobs(스티브 잡스)”에 대한 샘플 검색 결과, 심지어는 아랍어를 포함한 인명의 변형태를 찾아냅니다.

솔루션


10여 년에 걸친 자연 언어 처리 분야의 전문성

베이시스 테크놀로지는 구글, 야후, 마이크로소프트 빙, 오라클 엔데카 등의 주요 검색 엔진을 비롯해 다국어 자연 언어 처리 분야에 있어 업계가 선호하는 기업입니다. 당사는 소셜 미디어 분석에 있어 내재되는 언어적인 어려움의 새로운 동향을 해결하기 위해, 언어학적 소프트웨어 컴포넌트 성능을 지속적으로 개선 및 증대하고 있습니다. Rosette을 통해 귀사의 소셜 미디어 분석 소프트웨어를 어떻게 다국어화·세계화 할 수 있는지 무료 제품 평가판을 통해 알아보십시오.

영어가 전세계 소셜 미디어 포스팅의 40 퍼센트에 그치는 실정을 감안하면, 비영어권 언어로 된 대화 안에 숨겨진 비즈니스 및 시장에 대한 이해를 얻는 능력이 점점 더 중요해지고 있습니다. 베이시스 테크놀로지의 기술을 통해 우리 분석의 영역을 자사의 고객들이 요구하는 언어로 신속히 확장하는 것이 가능해졌습니다. Rosette 기술의 정확성과 고성능으로 인해 다국어 소셜 미디어 대화로부터 정보를 발견하는 자사 기술의 글로벌 커버리지를 확장할 수 있었기에 우리는 Rosette을 선택하였습니다.

Steve Winters

엔지니어링 부사장, NetBase사

제품 관련 문의

Rosette을 통해 어떻게 소셜 미디어 분석을 강화할 수 있는지에 대해 더 자세한 정보를 원하시는 고객님께서는 아래 사항을 기재해 주시면, 담당자를 통해 연락 드리도록 하겠습니다.

더 자세히 알아보기

데이터시트 다운로드

This is a unique website which will require a more modern browser to work! Please upgrade today!