일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- cloudera
- Python
- apache spark
- 개발자혜성
- mlops
- 블로그
- 개발자
- 데이터엔지니어링
- BigData
- redis bloom filter
- 빅데이터
- 빅데이터플랫폼
- 추천시스템
- Data engineering
- 하둡
- hadoop
- Spark structured streaming
- dataengineer
- eks
- 클라우데라
- spark
- Terraform
- DataEngineering
- AWS SageMaker
- kafka
- recommendation system
- kubernetes
- 하둡에코시스템
- 데이터엔지니어
- pyspark
- Today
- Total
Hyesung Oh
데이터 마이닝 vs 머신 러닝 본문
데이터 마이닝과 머신러닝이란? 그리고 그 둘의 차이점 정리
우선 위 개념에 앞서 기계학습에서 사용하는 데이터에 대한 두 가지 접근 방식에 대해 알고 넘어가자
모델링이란?
Modeling – statistical data processing
-
Traditional approach : Top to Down 방식
-
create (stochastic) models for our signals of interest
-
exploit these models to design systems that extract the information we need
2. “Data-driven” approach : Bottom to Top 방식
-
get numerous examples of signals of interest
-
automatically figure out (somehow) a way to extract the information we need from future signals of interest
전통적인 접근 방식에서는 해당 도메인에 적합한 통계 모델을 설정한 후(도메인 지식 동원) 그 모델에 대한 검증을 데이터를 통해 하는 방식이었다면, 기계 학습의 주 철학은 데이터로부터 모델을 만들어 내자는 것입니다.
하지만 위의 두 방식 모두 적절히 혼용되어야만이 제대로 된 데이터 분석을 할 수 있게 됩니다. 특정 산업 또는 도메인에 대한 이해도가 중요하다고 하는 이유는 바로 여기에 있습니다.
데이터 마이닝, 머신러닝, 빅데이터, 인공지능 용어에 대한 구분과 정리
결론부터 말하자면
" 빅데이터 = 데이터 마이닝 + 머신러닝 + 인공지능 "
데이터 마이닝은 기본적으로 머신러닝과 같은 주제를 공유합니다. 머신러닝이 전통적인 기계학습 모델에 좀 더 무게를 두는 것이라면, 데이터 마이닝은 해석 가능한 주제에 더욱 초점을 둡니다.
ex) pattern recognization, association, clustering, anomaly detection
데이터 마이닝과 머신러닝 모두 data driven information을 추구하는 학문으로서 bottom to top 접근 방식을 취합니다.
빅데이터 전문가, 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트 ?
빅데이터 전문가 : 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트를 총칭하는 포괄적인 의미
데이터 엔지니어 : 대용량의 데이터를 수집, 처리, 저장, 분석하는 데이터 파이프라인을 구축, 관리하는 전문가.
데이터 분석가 : 데이터를 기반으로 추출한 인사이트를 비즈니스 사이드에 적용하는 전문가
데이터 사이언티스트 : 데이터 엔지니어, 데이터 분석가의 자질을 모두 갖춘 자라고 생각하면 이해하기 쉽습니다.
따라서 데이터 사이언티스트에게 요구되는 자질을 다이어그램으로 정리하면 아래가 되겠습니다.
데이터 사이언티스트가 되고 싶어요
위의 요구 자질들을 모두 배양하기 위해선 학부 수준에서는 다소 무리가 있을 수 있습니다. 따라서 데이터 엔지니어로 시작을 하여 백엔드를 이해한 후 내가 원하는 데이터를 수집할 수 있도록 프로그램을 설계하는 능력을 키우고 나아가 수집한 데이터로부터의 인사이트를 발굴하고 비즈니스 사이드에 적용할 수 있는 데이터 분석가의 자질을 키우는 것이 학부생으로선 유리해 보입니다. 커리어의 최 종착 지점인 데이터 사이언티스트(빅데이터 전문가)가 되는 것이 개인적으로 생각하는 데이터 사이언티스트가 되기 위한 한 방법입니다.
'Statistics&ML' 카테고리의 다른 글
[비정형 데이터마이닝] 사회 연결망 분석 개요 (0) | 2020.05.20 |
---|---|
[비정형 데이터 마이닝] 텍스트 마이닝 개요 (0) | 2020.05.20 |
[정형 데이터 마이닝] 비지도 학습/Unsupervised Learning (0) | 2020.05.20 |
[Statistic Analysis] 통계 초짜도 한번에 이해하는 통계적 검정 (0) | 2020.05.11 |
시계열, 머신러닝 모델의 통계적, 수학적 기반에 대하여 (0) | 2019.12.10 |