일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 개발자혜성
- kubernetes
- BigData
- 하둡에코시스템
- 빅데이터
- apache spark
- Python
- Spark structured streaming
- hdfs
- kafka
- pyspark
- AWS
- Data engineering
- 빅데이터플랫폼
- dataengineer
- scala
- IT블로그
- hadoop
- 하둡
- 스파크
- 데이터엔지니어링
- cloudera
- 클라우데라
- DataEngineering
- 블로그
- Terraform
- eks
- spark
- 데이터엔지니어
- 개발자
- Today
- Total
목록Data Engineering (30)
Hyesung Oh
1. 데이터 연계 및 통합 시 일괄 작업 또는 비동기식 근접 실시간, 또는 동기적 실시간 방식이 혼용 사용될 수 있다. 1). 일괄 통합(Batch) : ETL 기능을 통해 운영 시스템으로부터 정기적, 반복적으로 대량의 데이터를 획득해 ODS를 구성하고 이후 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통해 경영 분석을 수행하는 작업을 들 수 있다. 2). 비동기식 실시간 통합 3). 동기식 실시간 통합 : 컨테이너 터미널, 공장 등의 생산 및 운송 장비 센서들로 부터 데이터를 실시간으로 획득해 운영 상태를 모니터링하고 필요한 경우 작업을 통제하는 사례를 들 수 있따. 이는 complex event processing이라는 sw 및 아키텍처를 통해 구현될 수 있다. 위 세가지..
EAI, Enterprise Application Integration 1. EAI의 개념 및 특징 - 비즈니스 프로세스를 중심으로 기업 내 각종 애플리케이션의 상호연동이 가능하도록 통합하는 솔류션 - 기업 내 또는 기업 간 상호 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 작동하도록 하는 것 - Front-Office 시스템, 기존의 레거시 시스템, 패키지 애플리케이션 등의 형태로 산재되어 있는 애플리케이션을 프로세스 및 메셋지 차원에서 통합 관리한다. - EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계할 수 있다. - ETL은 배치 프로세스 중심이며, EAI는 실시간 혹은 근접 실시간 처리 중심이다. 2. 데이터 연계 방식 1) 기존의 데이터 연계 방식 : ..
CDC, Change Data Capture 1. CDC의 개념 및 특징 - CDC는 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유)를 자동화하는 기술 또는 설계 기법이자 구조이다. - 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 넓게 활용된다. - 스토리지 하드웨어 계층에서붑터 애플리케이션 계층에 이르기까지 다양한 계층에서 다양한 기술을 통해 구현될 수 있다. - 단일 정보 시스템 내 다수의 CDC 메커니즘이 구현돼 동작될 수 있다. 2. CDC 구현 기법 1) Time Stamp on Rows : 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 컬럼을 두고, 마지막 변경 타임스탬프..
학습 목표- ETL, ODS 구성, 데이터 웨어하우스를 이해한다.- CDC, EAI에 대해 이해한다- 데이터 연계 및 통계 기법을 분류하고 각 용도를 이해한다.- 대용량의 비정형 데이터 처리방법에 대해 이해한다.맛보기- ETL : 데이터 추출 및 적재작업. 대용량 데이터에 대한 일괄 작업을 통해 정형 데이터를 통합하는 기술.- CDC, EAI : 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술- 전통적 데이터 처리기법과 빅데이터 처리 기법은 데이터 저장 인프라스트럭처 및 조회 기법 등에서 차이점이 존재- 대표적인 비정형 데이터인 '로그 데이터'의 수집 방법. 비정형 데이터란 텍스트, 이미지, 비디오, 센서 데이터 등이 있음. 기업에서 발생하는 대표적인 비정형 데이터인 로그 데이터는 Flu..
Java 든 C# 이든 C++ 이던 간에 데이터의 메모리 구조는 크게 다음 2가지로 나뉩니다. - 값 형식 데이터: integer, float(single), charactor(또는 char 의 집합인 string) 등 - 오브젝트(레퍼런스) 형식 데이터: 메모리 번지(주소, Address)값 --> 주소값을 최종적으로 따라가면 값 형식 데이터를 참조 하게 됨. (C/C++) 또는 언어 차원에서 이 과정을 생략해줌 (C#, JAVA) --> 클래스의 인스턴스는 해당 프로세스의 메모리 상에서만 유효한 번지 주소를 갖는 오브젝트(레퍼런스) 데이터. 이 중에 '저장/전송 가능한 데이터' 는 당연하게도 값 형식 데이터만 전송 가능합니다. 오브젝트(레퍼런스) 형태의 참조 데이터(메모리 번지 주소 데이터)는 상식적..
* 패스트캠퍼스 데이터엔지니어링 강의 중 데이터엔지니어링의 개요 파트를 수강하고 정리한 글입니다 1. 데이터 엔지니어링의 필요성1-1 문제해결을 위한 가설 검증의 단계비즈니스는 문제를 해결하는 것문제를 해결하기 위한 출발점은 클린한 분석환경이다.문제해결 과정을 정리하면 다음과 같다문제 - 분석 - 가설 - 검증 -최적화가설은 데이터로 부터 세우는데 이 데이터를 확보하고 엔지니어링 하는 것이 비즈니스의 출발점이자 핵심이라 할 수 있다.실례로 페이스북의 경우 유저 경험이 중요하므로 데이터 시스템 구축이 성공 열쇠e-commerce 의 경우 물류,crm, 마케팅 채널 데이터 분석을 통해 전략을 수립한다. 1-2 처음 부터 모든 것을 갖출 수는 없다비즈니스의 스케일에 따라 집중해서 갖추어야 할 부분이 다르다.처..