일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- mlops
- 블로그
- 개발자혜성
- 데이터엔지니어
- hadoop
- cloudera
- kubernetes
- apache spark
- 하둡
- 추천시스템
- 클라우데라
- kafka
- 데이터엔지니어링
- 개발자
- redis bloom filter
- 빅데이터
- 빅데이터플랫폼
- dataengineer
- BigData
- DataEngineering
- AWS SageMaker
- pyspark
- eks
- recommendation system
- 하둡에코시스템
- spark
- Terraform
- Spark structured streaming
- Python
- Data engineering
- Today
- Total
Hyesung Oh
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #4 데이터 통합 및 연계 기법 본문
1. 데이터 연계 및 통합 시 일괄 작업 또는 비동기식 근접 실시간, 또는 동기적 실시간 방식이 혼용 사용될 수 있다.
1). 일괄 통합(Batch) : ETL 기능을 통해 운영 시스템으로부터 정기적, 반복적으로 대량의 데이터를 획득해 ODS를 구성하고 이후 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통해 경영 분석을 수행하는 작업을 들 수 있다.
2). 비동기식 실시간 통합
3). 동기식 실시간 통합 : 컨테이너 터미널, 공장 등의 생산 및 운송 장비 센서들로 부터 데이터를 실시간으로 획득해 운영 상태를 모니터링하고 필요한 경우 작업을 통제하는 사례를 들 수 있따. 이는 complex event processing이라는 sw 및 아키텍처를 통해 구현될 수 있다.
위 세가지와 더불어 최근 데이터 중복을 허용하는 분산저장 환경구성을 통한 높은 확장성을 확보하는 빅데이터 저장 인프라스트럭처의 활용과 병행 설계되는 사례도 등장하고 있다.
전통적인 ETL 기술은 데이터 웨어하우스 구성만을 주목적으로 하였으나, 최근 들어 ODS와 BI플랫폼, MDM 허브, 하둡, 클라우드 환경 등 다양한 데이터 통합 메커니즘을 지원하는 것으로 그 영역을 확장하고 있다.
특별히 최근의 ETL 솔루션들은 빅데이터 환경과 전통적 데이터 환경(RDMBS) 간 빅데이터 추출 변형 적재를 지원하고있다.
최근 기업 의사결정 지원을 위해 전자메일, 각종 문서파일 등에 보관되는 비정형 또는 준정형 데이터의 중요성이 부각되고 있다. 비정형 또는 준정형 데이터에서 정형 데이터로의 변환은 빅데이터의 주요한 기술적 특성이다.
MapReduce 등 빅데이터 기술을 활용하지 않을 경우에는 정형 데이터로 변환하기 위한 많은 추각개발이 요청된다. 특히 빅데이터 기술을 이용하지 않고 정형 데이터로 변환하는 접근은 향후 시스템 확장성과 유연성을 확보하기 어렵게 하고, 기업 IT 투자를 중장기적으로 보호할 수 없게 한다.
기존 ETL 솔루션들도 이러한 상황에 대응하기 위해 비정형 또는 준정형 데이터의 정형 데이터로의 번형작업을 표준화하기 위한 시도들을 하고 있다.
'Data Engineering' 카테고리의 다른 글
Apache Ozone (1) | 2020.08.22 |
---|---|
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #5 대용량의 비정형 데이터 처리방법 (0) | 2020.05.20 |
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #3 EAI (0) | 2020.05.20 |
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #2 CDC (0) | 2020.05.20 |
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #1 ETL (0) | 2020.05.20 |