일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터엔지니어링
- BigData
- 추천시스템
- 개발자혜성
- 개발자
- Terraform
- dataengineer
- 하둡에코시스템
- mlops
- eks
- AWS SageMaker
- 블로그
- 데이터엔지니어
- 클라우데라
- cloudera
- apache spark
- Python
- 하둡
- 빅데이터플랫폼
- Data engineering
- 빅데이터
- recommendation system
- Spark structured streaming
- redis bloom filter
- pyspark
- DataEngineering
- spark
- hadoop
- kubernetes
- kafka
- Today
- Total
목록빅데이터플랫폼 (3)
Hyesung Oh
1. 요구사항 1.1 요구사항 1 실시간 데이터 1.2 요구사항 2 배치 데이터 2. 요구사항 구체화 2.1 원천 데이터 수집/ 적재 HDFS, Flume 2.2 통합/ 처리된 데이터 적재 Hbase, MariaDB 2.3 전처리 과저에 사용성 확보, 워크플로우 관리 Hue, Hive, Spark, Oozie 2.4 보안성, 활용성 확보 (시간상 스킵, 공부가 더 필요한 부분입니다.) Kerberos, Sentry, Ranger 3. 아키텍처 구현 3.1 Task 수집 및 적재된 원천 데이터를 탐색해서 최종 분석 마트 데이터까지 만들어지는 과정을 위한 빅데이터 플랫폼을 구축한다 3.2 Consideration 가용성/최신성/사용성 측면을 고려한 소프트웨어 설계 3.3 Stage : 수집-적재-처리-분석-..
1. Cloudera Data Platform (CDP) 세계 최초의 엔터프라이즈 데이터 클라우드. CDP를 사용하면 엔터프라이즈급 보안 및 거버넌스를 통해 엣지에서 AI까지 모든 분석 워크로드를 쉽게 처리할 수 있다. 2. CDP 제품 종류 CDP Public Cloud : Public Cloud version of CDP CDP Data Center : On-Premise version of CDP 3. CDP Data Center 3.1 Regular Base Cluster 3.1.1 Data Engineering HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez Spark Oozie Hue Data Analytics Studio 3..
대표적인 하둡의 배포판 회사인 Cloudera 이번 포스트는 Cloudera의 새로운 서비스인 CDP에 대해 알아보고, 직접 설치해본 과정을 정리한 포스트입니다. 1.주제 CDP Trial Version Installation & Demonstration, PoC 2. 주제 선정 배경 2.1 Cloudera vs. Hortonworks : 차이점은 한 벤더를 다른 벤더보다 선택하는 결정적인 역할을하는 것입니다. Cloudera와 Hortonworks는 크게 다음과 같은 측면에서 다릅니다. Cloudera는 장기 목표가 기업 데이터 허브가되는 것이라고 발표했습니다. 따라서 데이터웨어 하우스의 필요성이 줄어 듭니다. 반면에 Hortonworks는 Hadoop 배포판의 공급 업체로 남아 있으며 데이터웨어 하우..