Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 빅데이터
- Spark structured streaming
- DataEngineering
- spark
- 추천시스템
- 클라우데라
- dataengineer
- 개발자
- 블로그
- AWS SageMaker
- Terraform
- kubernetes
- Python
- hadoop
- 하둡에코시스템
- eks
- kafka
- mlops
- 하둡
- redis bloom filter
- BigData
- recommendation system
- pyspark
- 빅데이터플랫폼
- Data engineering
- cloudera
- 데이터엔지니어
- apache spark
- 데이터엔지니어링
- 개발자혜성
Archives
- Today
- Total
Hyesung Oh
빅데이터 플랫폼 Pilot 프로젝트 01 feat. Cloudera Data Platform 본문
반응형
대표적인 하둡의 배포판 회사인 Cloudera
이번 포스트는 Cloudera의 새로운 서비스인 CDP에 대해 알아보고, 직접 설치해본 과정을 정리한 포스트입니다.
1.주제
- CDP Trial Version Installation & Demonstration, PoC
2. 주제 선정 배경
2.1 Cloudera vs. Hortonworks :
차이점은 한 벤더를 다른 벤더보다 선택하는 결정적인 역할을하는 것입니다. Cloudera와 Hortonworks는 크게 다음과 같은 측면에서 다릅니다.
- Cloudera는 장기 목표가 기업 데이터 허브가되는 것이라고 발표했습니다. 따라서 데이터웨어 하우스의 필요성이 줄어 듭니다. 반면에 Hortonworks는 Hadoop 배포판의 공급 업체로 남아 있으며 데이터웨어 하우징 회사 인 Teradata와 파트너 관계를 맺고 있습니다.
- Cloudera CDH는 Windows 서버에서 실행할 수 있지만 HDP는 Windows 서버에서 기본 구성 요소로 사용할 수 있습니다. HDInsight Service를 통해 Windows Azure에 Windows 기반 Hadoop 클러스터를 배포 할 수 있습니다.
- Cloudera는 독점적 관리 소프트웨어 인 Cloudera Manager, SQL 쿼리 처리 인터페이스 Impala 및 Cloudera Search를 통해 제품에 쉽고 실시간으로 액세스 할 수 있습니다. Hortonworks는 독점 소프트웨어가 없으며 관리를 위해 Ambari를 사용하고 쿼리를 처리하기 위해 Stinger를 사용하고 데이터 검색을 위해 Apache Solr을 사용합니다.
- Cloudera는 상업용 라이센스를 보유하고 있으며 Hortonworks는 오픈 소스 라이센스를 보유하고 있습니다. Cloudera는 또한 오픈 소스 프로젝트를 무료로 사용할 수 있지만 패키지에는 관리 제품군 Cloudera Manager 또는 기타 독점 소프트웨어가 포함되어 있지 않습니다.
- Cloudera는 60 일 무료 평가판을, Hortonworks는 완전 무료입니다.
2.2 문제 상황
- HDP, CDH가 Cloudera CDP로 합병되며 유료화 되었음
- 유료버전을 사용해야 할지, 또 다른 무언가를 기다려야 할지 점검해야하는 상황
2.3 결론
- CDP Trial Version을 설치 및 컴포넌트 기능 리뷰를 통해 사전 검토해보자
3. 주제 소개
3.1 과제 유형
- 빅데이터 플랫폼 서비스 설치 (Trial Version)
3.2 과제 단계
- 프로젝트 도메인 이해 : Biz에 대한 이해, 이와 관련된 빅데이터 요구사항 도출 및 분석
- 빅데이터 아키텍처 이해 : 요구사항에 맞는 소프트웨어/하드웨어 아키텍처를 이해한다
빅데이터 프로젝트용 PC 환경 구성:Open JDK, 이클립스, 버추어 박스 등이번 프로젝트에서는 Trial Version특성상 한번에 bin file 설치시 한번에 설치 진행
- 빅데이터 프로젝트용 PC 서버 구성 : 가상 머신을 생성하고, 분산 클러스터 환경을 구성하기 위핸 리눅스 서버를 설치 및 구성한다.
- 5대의 CentOS 가상머신 환경을
- CDP Data Center Installation
- Cloudera Manager Server Installer를 통해 설치 진행
- Clouder Runtime 설치 (Parcel) 및 클러스터 구성
- Client Deploy (자동으로 진행)
- Installation Test
- Node별 Parcel Role부여 합리성 검토 & CDP의 차별점 정리 및 발전방향 제언
반응형
'Data Engineering' 카테고리의 다른 글
빅데이터 플랫폼 Pilot 프로젝트 03 feat. Cloudera Data Platform (0) | 2020.08.31 |
---|---|
빅데이터 플랫폼 Pilot 프로젝트 02 feat. Cloudera Data Platform (0) | 2020.08.31 |
Apache Ozone (1) | 2020.08.22 |
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #5 대용량의 비정형 데이터 처리방법 (0) | 2020.05.20 |
[데이터 처리 기술의 이해] 데이터 처리 프로세스 #4 데이터 통합 및 연계 기법 (0) | 2020.05.20 |
Comments