Hyesung Oh

[정형 데이터 마이닝] 비지도 학습/Unsupervised Learning 본문

Statistics&ML

[정형 데이터 마이닝] 비지도 학습/Unsupervised Learning

혜성 Hyesung 2020. 5. 20. 04:32
반응형

1. 모델

1) 거리기반 군집 분석 모델

K-means : 거리기반 군집 분석 모델. 그 외 k-median, k-medoid(CLARANS : 적절한 클러스터 값을 찾아가는 모델, 1000개 이상 데이터에는 적용불가, BIRCH : I/O병목현상 극복, pre-clustering 시행, 시릿간 데이터 클러스터링에 용이) 등이 있음. 거리기반 군집 분석 외에도 밀도 기반, 분포기반 군집 분석이 있음. 그 중에서도 밀도 기반 군집 분석 모델에 대해 공부할 필요가 있음

2) 밀도기반 군집 분석 :

2-1) 밀도기반

DBSCAN - 최소 반경, 최소 점의 갯수 라는 두가지 파라미터를 입력받아서 클러스터링 수행. 미리 클러스터링 갯수 지정할 필요 없고, 기하학적 모형을 잘반영하는 장점, 군집화와 동시에 노이즈를 표시할 수 있음으로서 데이터를 보다 정확하게 이해할 수 있음, 밀도기반 기법. 하지만 하이퍼파라메터를 휴리스틱하게 서칭해야하는 점에서 컴퓨팅 비용이 발생

DBCLASD - 이러한 DBSCAN의 장점을 극복하고자 입력파라미터를 제거함. 실제 학습시간은 2-3배 걸리지만 대규모 데이터에 대해서도 좋은 규모 확장성을 보임.

OPTICS - 클러스터를 생성하진 않지만 부가적 순서를 생성하는 밀도기반 기법

DENCLUE - 고차원 특징 벡터에 대한 클러스터링이나 많은 노이즈를 다룰 수 있도록 설계, 기존 클러스터링 알고리즘을 멀티미디어 데이타베이스에 적용하기 위해 고안된 밀도 분포함수 기반 군집화 방법.

2-2) 격자 기반 : 데이터가 존재하는 공간을 격자구조로 이루어진 유한개의 셀들로 양자화한 뒤, 데이터 포인트 대신 셀을 이용해 군집화 과정을 수행. 이를 통해 빠른 처리시간, 데이터 내 객체 수에 독립적이고 양자화된 공간의 각 차원에서 셀의수에만 의존함.

WaveCluster : Wavelet 변환 기법을 사용한 대표적인 격자기반 군집 분석 기법

CLIQUE(Clustering in QUEst) : 고차원 데이터 공간의 군집화를 위한 격자 및 밀도기반 기법

3) 분포 기반 군집 분석 : GMM

2. 평가 지표

1) Silhouette(실루엣) : 군집 내의 응집도, 군집 간 분리도 두가지를 이용한 지표. 즉 군집 내 요소간 거리가 짧고, 군집 간 거리가 멀수록 값이 커짐. 

s(i) = b(i)-a(i)/max{a(i),b(i)}

a(i) - i번재 개체와 같은 군집에 속한 요소들 간 거리들의 평균, b(i) - i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 구했을 때 그 중 최소값.

2) Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소간 거리의 최대값을 분모로 하는 지표. 즉 군집 내 요소간 거리가 짧을 수록, 군집 간 거리가 멀수록 군집이 잘 형성되었다고 볼 수 있다.

3. Best-Matching Unit

SOM((Self Organizing Maps) : 자기조직화지도는 대뇌피질의 시각피질이 학습하는 과정을 모델화한 인공신경망의 일종이다. 비교사 학습에 의한 클러스터링 방법의 하나이다. 차원을 줄여서 가시화하는 방법의 하나이다. 자기조직화맵이라고도 한다. 인공지능망의 일종인 자기조직화맵은 자율학습의 방법으로 훈련이 되며, 저차원의 지도를 생성한다.

SOM에 대한 자세한 설명과 예제는 이곳

SOM에서는 각 학습 단계마다 입력층으로부터 하나의 표본 벡터를 임의로 선택하고, 경쟁층의 프로토타입 벡터와의 거리를 계싼한다. 그 후 표본 벡터와 거리가 가장 가까운 프로토타입 벡터를 선택하는데, BMU는 이 때 선택된 프로토타입 벡터를 나타내는 용어이다. 

반응형
Comments