Hyesung Oh

데이터 마이닝 vs 머신 러닝 본문

Statistics&ML

데이터 마이닝 vs 머신 러닝

혜성 Hyesung 2020. 3. 18. 20:57
반응형

데이터 마이닝과 머신러닝이란? 그리고 그 둘의 차이점 정리

우선 위 개념에 앞서 기계학습에서 사용하는 데이터에 대한 두 가지 접근 방식에 대해 알고 넘어가자 

모델링이란?

Modeling – statistical data processing

  1. Traditional approach : Top to Down 방식

    • create (stochastic) models for our signals of interest

    • exploit these models to design systems that extract the information we need

   2. “Data-driven” approach : Bottom to Top 방식

    • get numerous examples of signals of interest

    • automatically figure out (somehow) a way to extract the information we need from future signals of interest

전통적인 접근 방식에서는 해당 도메인에 적합한 통계 모델을 설정한 후(도메인 지식 동원) 그 모델에 대한 검증을 데이터를 통해 하는 방식이었다면, 기계 학습의 주 철학은 데이터로부터 모델을 만들어 내자는 것입니다.

하지만 위의 두 방식 모두 적절히 혼용되어야만이 제대로 된 데이터 분석을 할 수 있게 됩니다. 특정 산업 또는 도메인에 대한 이해도가 중요하다고 하는 이유는 바로 여기에 있습니다.

 

데이터 마이닝, 머신러닝, 빅데이터, 인공지능 용어에 대한 구분과 정리

 

 

결론부터 말하자면

" 빅데이터 = 데이터 마이닝 + 머신러닝 + 인공지능 "

데이터 마이닝은 기본적으로 머신러닝과 같은 주제를 공유합니다. 머신러닝이 전통적인 기계학습 모델에 좀 더 무게를 두는 것이라면, 데이터 마이닝은 해석 가능한 주제에 더욱 초점을 둡니다.

ex) pattern recognization, association, clustering, anomaly detection

데이터 마이닝과 머신러닝 모두 data driven information을 추구하는 학문으로서 bottom to top 접근 방식을 취합니다.

 

빅데이터 전문가, 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트 ?

빅데이터 전문가 : 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트를 총칭하는 포괄적인 의미

데이터 엔지니어 : 대용량의 데이터를 수집, 처리, 저장, 분석하는 데이터 파이프라인을 구축, 관리하는 전문가.

데이터 분석가 : 데이터를 기반으로 추출한 인사이트를 비즈니스 사이드에 적용하는 전문가

데이터 사이언티스트 : 데이터 엔지니어, 데이터 분석가의 자질을 모두 갖춘 자라고 생각하면 이해하기 쉽습니다. 

따라서 데이터 사이언티스트에게 요구되는 자질을 다이어그램으로 정리하면 아래가 되겠습니다.

데이터 사이언티스트가 되고 싶어요

위의 요구 자질들을 모두 배양하기 위해선 학부 수준에서는 다소 무리가 있을 수 있습니다. 따라서 데이터 엔지니어로 시작을 하여 백엔드를 이해한 후 내가 원하는 데이터를 수집할 수 있도록 프로그램을 설계하는 능력을 키우고 나아가 수집한 데이터로부터의 인사이트를 발굴하고 비즈니스 사이드에 적용할 수 있는 데이터 분석가의 자질을 키우는 것이 학부생으로선 유리해 보입니다. 커리어의 최 종착 지점인 데이터 사이언티스트(빅데이터 전문가)가 되는 것이 개인적으로 생각하는 데이터 사이언티스트가 되기 위한 한 방법입니다. 

반응형
Comments