Hyesung Oh

[비정형 데이터 마이닝] 텍스트 마이닝 개요 본문

Statistics&ML

[비정형 데이터 마이닝] 텍스트 마이닝 개요

혜성 Hyesung 2020. 5. 20. 05:05
반응형

텍스트 마이닝이란?

데이터 마이닝에 자연어처리(NLP) 기술을 접목하여 반정형/비정형 텍스트를 정형화 하고, 그 속에서 특징을 추출한 후 추출된 특징을 통해 의미있는 정보를 발견하고자 하는 기술.

다양한 형태의 문서(웹 콘텐츠, PDF, MS office 파일, XML, txt)로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 추가적 분석을 수행할 수 있습니다. 단어들 간의 관계를 이용해 감성분석, 워드클라우드 분석 등을 수행한 후 이 정보를 클러스터링, 분류, 사회연결망 분석 등에 활용할 수 있습니다.

텍스트 마이닝 vs 데이터 마이닝

주로 구조화된 정형 데이터 속에서 정보나 패턴을 발견하는 데이터 마이닝과는 달리 텍스트 마이닝은 인터넷 데이터, 소셜 미디어 데이터, 로그 데이터 등과 같은 비정형 데이터 속에서 정보나 관계를 발견합니다. 

텍스트마이닝 기능

- 문서 요약(summerization)

- 문서 분류(classification)

- 문서 군집(clustering)

- 특성 추출(feature extraction)

Corpus

Corpus는 데이터마이닝의 절차 중 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로, 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태입니다. 주로 공백 제거, 대문자에서 소문자 변환, 불용어(stopword)처리, 어간추출(stemming) 등의 작업을 수행한 다음입니다. R의 텍스트마이닝 패키지인 'tm'에서 문서를 관리하는 기본 구조이며, 텍스트 문서들의 집합을 의미합니다.

Term-Document Matrix

문서와 문서에 출현하는 단어간의 빈도를 matrix로 표현한 것입니다. 주로 행은 단어, 열은 문서로 정의합니다. 매트릭스셀의 값은 단어별 문서 빈도수를 나타냅니다. 이를 통해 문서간 유사도를 계산하여 분류에 사용할 수 있습니다. 

감성분석

문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지를 파악하여 전체 문장의 긍정/부정 여부를 평가합니다. 문장을 w2v과 같은 임베딩 기법을 이용해 벡터화 한 데이터가 학습에 사용됩니다. 또는 BOW(bag of word)와 같은 단순 단어 카운팅에 기반하여 감성 분석을 시행할 수도 있습니다. 문장별 긍정, 부정에 대한 분류는 도메인에 따라 같은 문장이라도 다르게 판별될 수 있으므로 주의가 필요합니다. 

한글 처리는 어떻게?

Python의 경우 KoNLPy 패키지를 이용하여 한글 자연어 처리를 할 수 있습니다 (R의 경우 KoNLP).

워드 클라우드 

문서에 포함된 단어의 사용 빈도를 시각적으로 나타내는 기법입니다. 빈도수가 높을 수록 단어의 크기를 크게 표현합니다. wordcloud 패키지를 이용하면 됩니다(from wordcloud import WordCloud)

반응형
Comments