일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- mlops
- 추천시스템
- 개발자혜성
- Terraform
- 하둡
- 데이터엔지니어
- Data engineering
- kafka
- kubernetes
- 빅데이터플랫폼
- 하둡에코시스템
- hadoop
- pyspark
- 개발자
- 빅데이터
- eks
- Spark structured streaming
- 클라우데라
- 데이터엔지니어링
- BigData
- redis bloom filter
- Python
- apache spark
- recommendation system
- spark
- 블로그
- DataEngineering
- AWS SageMaker
- dataengineer
- cloudera
- Today
- Total
목록하둡 (4)
Hyesung Oh
1.사전 작업, CDP 설치 url 받아오기 □ Installer.bin 설치 URL 받아오기 a. TRY NOW 클릭 b. 개인정보 입력 c. install bin 파일 설치 url 받아옴 : https://archive.cloudera.com/cm7/7.1.3/cloudera-manager-installer.bin ISSUE : wget은 외부망이 막혀있어서 작동하지 않음 → 매니저님이 외부망 열어주심 2. 가상머신 환경 설정 □ 고정 IP할당 /etc/sysconfig/network-scripts/ifcfg-eth0 파일 수정 기본 세팅된 상태로 제공받음 □ 모든 서버 yum update 수행 a. sudo yum update -y □모든 서버 hosts 파일수정 a. sudo vi /etc/hos..
1. 요구사항 1.1 요구사항 1 실시간 데이터 1.2 요구사항 2 배치 데이터 2. 요구사항 구체화 2.1 원천 데이터 수집/ 적재 HDFS, Flume 2.2 통합/ 처리된 데이터 적재 Hbase, MariaDB 2.3 전처리 과저에 사용성 확보, 워크플로우 관리 Hue, Hive, Spark, Oozie 2.4 보안성, 활용성 확보 (시간상 스킵, 공부가 더 필요한 부분입니다.) Kerberos, Sentry, Ranger 3. 아키텍처 구현 3.1 Task 수집 및 적재된 원천 데이터를 탐색해서 최종 분석 마트 데이터까지 만들어지는 과정을 위한 빅데이터 플랫폼을 구축한다 3.2 Consideration 가용성/최신성/사용성 측면을 고려한 소프트웨어 설계 3.3 Stage : 수집-적재-처리-분석-..
1. Cloudera Data Platform (CDP) 세계 최초의 엔터프라이즈 데이터 클라우드. CDP를 사용하면 엔터프라이즈급 보안 및 거버넌스를 통해 엣지에서 AI까지 모든 분석 워크로드를 쉽게 처리할 수 있다. 2. CDP 제품 종류 CDP Public Cloud : Public Cloud version of CDP CDP Data Center : On-Premise version of CDP 3. CDP Data Center 3.1 Regular Base Cluster 3.1.1 Data Engineering HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez Spark Oozie Hue Data Analytics Studio 3..
서두 평소 업무를 하며 사내 빅데이터 플랫폼 아키텍처에 대해 고민할 일이 있었습니다. 클라우데라와 호튼웍스가 합병하며 Cloudera Data Hub (CDH), Hotenworks Data Platform (HDP)이 이번에 Cloudera Data Platform (CDP)로 통합되었고, 이는 무료로 사용할 수 없습니다. 변경된 사항을 정리하면 다음과 같습니다. CDH 와 HDP 는 CDP 로 통합되고, CDH 와 HDP 는 2021년까지만 유지한다. CDP 는 서크스크립션 계약을 한 경우에만 다운로드 가능하다. 기존에 On-presmise 로 운영중이던 하둡 플랫폼(CDH, HDP)은 변경되는 라이센스 정책에 영향받지 않는다 이에 On-presmise로 운영중인 하둡 플랫폼을 유지할 것이지 변화할 ..