일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- recommendation system
- 블로그
- 추천시스템
- AWS SageMaker
- Terraform
- eks
- Python
- DataEngineering
- 개발자혜성
- mlops
- BigData
- apache spark
- 빅데이터
- 개발자
- redis bloom filter
- 하둡에코시스템
- 하둡
- hadoop
- kafka
- cloudera
- 데이터엔지니어
- spark
- dataengineer
- kubernetes
- pyspark
- 데이터엔지니어링
- 빅데이터플랫폼
- Data engineering
- 클라우데라
- Spark structured streaming
- Today
- Total
목록클라우데라 (3)
Hyesung Oh

1.사전 작업, CDP 설치 url 받아오기 □ Installer.bin 설치 URL 받아오기 a. TRY NOW 클릭 b. 개인정보 입력 c. install bin 파일 설치 url 받아옴 : https://archive.cloudera.com/cm7/7.1.3/cloudera-manager-installer.bin ISSUE : wget은 외부망이 막혀있어서 작동하지 않음 → 매니저님이 외부망 열어주심 2. 가상머신 환경 설정 □ 고정 IP할당 /etc/sysconfig/network-scripts/ifcfg-eth0 파일 수정 기본 세팅된 상태로 제공받음 □ 모든 서버 yum update 수행 a. sudo yum update -y □모든 서버 hosts 파일수정 a. sudo vi /etc/hos..

1. 요구사항 1.1 요구사항 1 실시간 데이터 1.2 요구사항 2 배치 데이터 2. 요구사항 구체화 2.1 원천 데이터 수집/ 적재 HDFS, Flume 2.2 통합/ 처리된 데이터 적재 Hbase, MariaDB 2.3 전처리 과저에 사용성 확보, 워크플로우 관리 Hue, Hive, Spark, Oozie 2.4 보안성, 활용성 확보 (시간상 스킵, 공부가 더 필요한 부분입니다.) Kerberos, Sentry, Ranger 3. 아키텍처 구현 3.1 Task 수집 및 적재된 원천 데이터를 탐색해서 최종 분석 마트 데이터까지 만들어지는 과정을 위한 빅데이터 플랫폼을 구축한다 3.2 Consideration 가용성/최신성/사용성 측면을 고려한 소프트웨어 설계 3.3 Stage : 수집-적재-처리-분석-..
1. Cloudera Data Platform (CDP) 세계 최초의 엔터프라이즈 데이터 클라우드. CDP를 사용하면 엔터프라이즈급 보안 및 거버넌스를 통해 엣지에서 AI까지 모든 분석 워크로드를 쉽게 처리할 수 있다. 2. CDP 제품 종류 CDP Public Cloud : Public Cloud version of CDP CDP Data Center : On-Premise version of CDP 3. CDP Data Center 3.1 Regular Base Cluster 3.1.1 Data Engineering HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez Spark Oozie Hue Data Analytics Studio 3..