일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 개발자혜성
- hadoop
- eks
- AWS SageMaker
- pyspark
- 추천시스템
- DataEngineering
- 하둡에코시스템
- redis bloom filter
- Data engineering
- 빅데이터
- Terraform
- apache spark
- 개발자
- 클라우데라
- 데이터엔지니어
- kubernetes
- mlops
- dataengineer
- 빅데이터플랫폼
- Python
- 블로그
- cloudera
- recommendation system
- Spark structured streaming
- 하둡
- BigData
- spark
- 데이터엔지니어링
- kafka
- Today
- Total
목록Data Engineering (36)
Hyesung Oh

1.사전 작업, CDP 설치 url 받아오기 □ Installer.bin 설치 URL 받아오기 a. TRY NOW 클릭 b. 개인정보 입력 c. install bin 파일 설치 url 받아옴 : https://archive.cloudera.com/cm7/7.1.3/cloudera-manager-installer.bin ISSUE : wget은 외부망이 막혀있어서 작동하지 않음 → 매니저님이 외부망 열어주심 2. 가상머신 환경 설정 □ 고정 IP할당 /etc/sysconfig/network-scripts/ifcfg-eth0 파일 수정 기본 세팅된 상태로 제공받음 □ 모든 서버 yum update 수행 a. sudo yum update -y □모든 서버 hosts 파일수정 a. sudo vi /etc/hos..

1. 요구사항 1.1 요구사항 1 실시간 데이터 1.2 요구사항 2 배치 데이터 2. 요구사항 구체화 2.1 원천 데이터 수집/ 적재 HDFS, Flume 2.2 통합/ 처리된 데이터 적재 Hbase, MariaDB 2.3 전처리 과저에 사용성 확보, 워크플로우 관리 Hue, Hive, Spark, Oozie 2.4 보안성, 활용성 확보 (시간상 스킵, 공부가 더 필요한 부분입니다.) Kerberos, Sentry, Ranger 3. 아키텍처 구현 3.1 Task 수집 및 적재된 원천 데이터를 탐색해서 최종 분석 마트 데이터까지 만들어지는 과정을 위한 빅데이터 플랫폼을 구축한다 3.2 Consideration 가용성/최신성/사용성 측면을 고려한 소프트웨어 설계 3.3 Stage : 수집-적재-처리-분석-..
1. Cloudera Data Platform (CDP) 세계 최초의 엔터프라이즈 데이터 클라우드. CDP를 사용하면 엔터프라이즈급 보안 및 거버넌스를 통해 엣지에서 AI까지 모든 분석 워크로드를 쉽게 처리할 수 있다. 2. CDP 제품 종류 CDP Public Cloud : Public Cloud version of CDP CDP Data Center : On-Premise version of CDP 3. CDP Data Center 3.1 Regular Base Cluster 3.1.1 Data Engineering HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez Spark Oozie Hue Data Analytics Studio 3..
대표적인 하둡의 배포판 회사인 Cloudera 이번 포스트는 Cloudera의 새로운 서비스인 CDP에 대해 알아보고, 직접 설치해본 과정을 정리한 포스트입니다. 1.주제 CDP Trial Version Installation & Demonstration, PoC 2. 주제 선정 배경 2.1 Cloudera vs. Hortonworks : 차이점은 한 벤더를 다른 벤더보다 선택하는 결정적인 역할을하는 것입니다. Cloudera와 Hortonworks는 크게 다음과 같은 측면에서 다릅니다. Cloudera는 장기 목표가 기업 데이터 허브가되는 것이라고 발표했습니다. 따라서 데이터웨어 하우스의 필요성이 줄어 듭니다. 반면에 Hortonworks는 Hadoop 배포판의 공급 업체로 남아 있으며 데이터웨어 하우..

서두 평소 업무를 하며 사내 빅데이터 플랫폼 아키텍처에 대해 고민할 일이 있었습니다. 클라우데라와 호튼웍스가 합병하며 Cloudera Data Hub (CDH), Hotenworks Data Platform (HDP)이 이번에 Cloudera Data Platform (CDP)로 통합되었고, 이는 무료로 사용할 수 없습니다. 변경된 사항을 정리하면 다음과 같습니다. CDH 와 HDP 는 CDP 로 통합되고, CDH 와 HDP 는 2021년까지만 유지한다. CDP 는 서크스크립션 계약을 한 경우에만 다운로드 가능하다. 기존에 On-presmise 로 운영중이던 하둡 플랫폼(CDH, HDP)은 변경되는 라이센스 정책에 영향받지 않는다 이에 On-presmise로 운영중인 하둡 플랫폼을 유지할 것이지 변화할 ..
1. 대용량 로그 데이터 수집 1.1 로그(Log) 로그는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용됐고, 최근에는 마케팅/영업 전략 수립을 위한 사용자의 형태 분석 등에 사용된다. 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다. 로그 데이터 수집 시스템의 예 : 아파치 flume-NG, 페이스북 Scribe, 아파치 Chukwa 등 1.2 대용량 비정형 데이터 수집 시스템의 특징 1) 초고속 수집 성능과 확장성 - 수집 대상 서버가 증가하면 증가한 서버 수만큼 에이전트의 수를 늘리는 방식으로 쉽게 확장할 수 있는 구조를 가진다. 2) 데이터 전송 보장 메커니즘 - 수집된 데이터는 처리 및 분석을 위한 저장소인 분산 파일시스..
1. 데이터 연계 및 통합 시 일괄 작업 또는 비동기식 근접 실시간, 또는 동기적 실시간 방식이 혼용 사용될 수 있다. 1). 일괄 통합(Batch) : ETL 기능을 통해 운영 시스템으로부터 정기적, 반복적으로 대량의 데이터를 획득해 ODS를 구성하고 이후 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통해 경영 분석을 수행하는 작업을 들 수 있다. 2). 비동기식 실시간 통합 3). 동기식 실시간 통합 : 컨테이너 터미널, 공장 등의 생산 및 운송 장비 센서들로 부터 데이터를 실시간으로 획득해 운영 상태를 모니터링하고 필요한 경우 작업을 통제하는 사례를 들 수 있따. 이는 complex event processing이라는 sw 및 아키텍처를 통해 구현될 수 있다. 위 세가지..
EAI, Enterprise Application Integration 1. EAI의 개념 및 특징 - 비즈니스 프로세스를 중심으로 기업 내 각종 애플리케이션의 상호연동이 가능하도록 통합하는 솔류션 - 기업 내 또는 기업 간 상호 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 작동하도록 하는 것 - Front-Office 시스템, 기존의 레거시 시스템, 패키지 애플리케이션 등의 형태로 산재되어 있는 애플리케이션을 프로세스 및 메셋지 차원에서 통합 관리한다. - EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계할 수 있다. - ETL은 배치 프로세스 중심이며, EAI는 실시간 혹은 근접 실시간 처리 중심이다. 2. 데이터 연계 방식 1) 기존의 데이터 연계 방식 : ..