일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 클라우데라
- cloudera
- Data engineering
- 하둡에코시스템
- recommendation system
- mlops
- Python
- spark
- 하둡
- AWS SageMaker
- kafka
- kubernetes
- DataEngineering
- eks
- 빅데이터
- pyspark
- BigData
- apache spark
- Spark structured streaming
- 개발자혜성
- hadoop
- 추천시스템
- 데이터엔지니어
- 데이터엔지니어링
- 개발자
- 빅데이터플랫폼
- redis bloom filter
- dataengineer
- Terraform
- 블로그
- Today
- Total
목록분류 전체보기 (63)
Hyesung Oh
apache spark official github repo: github.com/apache/spark 1. 이해의 출발 지점은 바로, 우리가 spark-shell REPL를 사용하기 위해 실행하는 bin/spark-shell 스크립트 # Shell script for starting the Spark Shell REPL cygwin=false case "$(uname)" in CYGWIN*) cygwin=true;; esac * cygwin: window에서 linux터미널을 사용할 수 있게 해주는 오픈소스 현재 터미널이 linux이면 true, window이면 false정도로 이해했다. function main() { if $cygwin; then # Workaround for issue invol..
Posting 목적 Hive, RDBMS, HBASE, HDFS 등.. 공부하다 보면 각 시스템들의 특징과 차이점이 명확히 구분히 안가고 혼동되는 경우가 잦았습니다. 이에 이번 기회에 정리하게 되었습니다. Hive vs RDBMS 출처 : stackoverrun.com/ko/q/1751170 요약하면, 다음과 같다. Hive RDMBS Is Database No. Its called Data Warehouse Yes SQL No, but SQL-Like query data stored in various databases - you can use sqoop to import data from RDBMS to Hive Yes OLTP/OLAP OLAP OLTP Record Level manipulation..
1.사전 작업, CDP 설치 url 받아오기 □ Installer.bin 설치 URL 받아오기 a. TRY NOW 클릭 b. 개인정보 입력 c. install bin 파일 설치 url 받아옴 : https://archive.cloudera.com/cm7/7.1.3/cloudera-manager-installer.bin ISSUE : wget은 외부망이 막혀있어서 작동하지 않음 → 매니저님이 외부망 열어주심 2. 가상머신 환경 설정 □ 고정 IP할당 /etc/sysconfig/network-scripts/ifcfg-eth0 파일 수정 기본 세팅된 상태로 제공받음 □ 모든 서버 yum update 수행 a. sudo yum update -y □모든 서버 hosts 파일수정 a. sudo vi /etc/hos..
1. 요구사항 1.1 요구사항 1 실시간 데이터 1.2 요구사항 2 배치 데이터 2. 요구사항 구체화 2.1 원천 데이터 수집/ 적재 HDFS, Flume 2.2 통합/ 처리된 데이터 적재 Hbase, MariaDB 2.3 전처리 과저에 사용성 확보, 워크플로우 관리 Hue, Hive, Spark, Oozie 2.4 보안성, 활용성 확보 (시간상 스킵, 공부가 더 필요한 부분입니다.) Kerberos, Sentry, Ranger 3. 아키텍처 구현 3.1 Task 수집 및 적재된 원천 데이터를 탐색해서 최종 분석 마트 데이터까지 만들어지는 과정을 위한 빅데이터 플랫폼을 구축한다 3.2 Consideration 가용성/최신성/사용성 측면을 고려한 소프트웨어 설계 3.3 Stage : 수집-적재-처리-분석-..
1. Cloudera Data Platform (CDP) 세계 최초의 엔터프라이즈 데이터 클라우드. CDP를 사용하면 엔터프라이즈급 보안 및 거버넌스를 통해 엣지에서 AI까지 모든 분석 워크로드를 쉽게 처리할 수 있다. 2. CDP 제품 종류 CDP Public Cloud : Public Cloud version of CDP CDP Data Center : On-Premise version of CDP 3. CDP Data Center 3.1 Regular Base Cluster 3.1.1 Data Engineering HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez Spark Oozie Hue Data Analytics Studio 3..
대표적인 하둡의 배포판 회사인 Cloudera 이번 포스트는 Cloudera의 새로운 서비스인 CDP에 대해 알아보고, 직접 설치해본 과정을 정리한 포스트입니다. 1.주제 CDP Trial Version Installation & Demonstration, PoC 2. 주제 선정 배경 2.1 Cloudera vs. Hortonworks : 차이점은 한 벤더를 다른 벤더보다 선택하는 결정적인 역할을하는 것입니다. Cloudera와 Hortonworks는 크게 다음과 같은 측면에서 다릅니다. Cloudera는 장기 목표가 기업 데이터 허브가되는 것이라고 발표했습니다. 따라서 데이터웨어 하우스의 필요성이 줄어 듭니다. 반면에 Hortonworks는 Hadoop 배포판의 공급 업체로 남아 있으며 데이터웨어 하우..
서두 평소 업무를 하며 사내 빅데이터 플랫폼 아키텍처에 대해 고민할 일이 있었습니다. 클라우데라와 호튼웍스가 합병하며 Cloudera Data Hub (CDH), Hotenworks Data Platform (HDP)이 이번에 Cloudera Data Platform (CDP)로 통합되었고, 이는 무료로 사용할 수 없습니다. 변경된 사항을 정리하면 다음과 같습니다. CDH 와 HDP 는 CDP 로 통합되고, CDH 와 HDP 는 2021년까지만 유지한다. CDP 는 서크스크립션 계약을 한 경우에만 다운로드 가능하다. 기존에 On-presmise 로 운영중이던 하둡 플랫폼(CDH, HDP)은 변경되는 라이센스 정책에 영향받지 않는다 이에 On-presmise로 운영중인 하둡 플랫폼을 유지할 것이지 변화할 ..
1. 대용량 로그 데이터 수집 1.1 로그(Log) 로그는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용됐고, 최근에는 마케팅/영업 전략 수립을 위한 사용자의 형태 분석 등에 사용된다. 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다. 로그 데이터 수집 시스템의 예 : 아파치 flume-NG, 페이스북 Scribe, 아파치 Chukwa 등 1.2 대용량 비정형 데이터 수집 시스템의 특징 1) 초고속 수집 성능과 확장성 - 수집 대상 서버가 증가하면 증가한 서버 수만큼 에이전트의 수를 늘리는 방식으로 쉽게 확장할 수 있는 구조를 가진다. 2) 데이터 전송 보장 메커니즘 - 수집된 데이터는 처리 및 분석을 위한 저장소인 분산 파일시스..