일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 클라우데라
- spark
- 블로그
- 하둡에코시스템
- recommendation system
- 하둡
- DataEngineering
- eks
- cloudera
- BigData
- redis bloom filter
- kafka
- AWS SageMaker
- 개발자
- Spark structured streaming
- Terraform
- apache spark
- 빅데이터플랫폼
- dataengineer
- 빅데이터
- mlops
- Python
- Data engineering
- kubernetes
- 데이터엔지니어링
- 추천시스템
- 개발자혜성
- pyspark
- 데이터엔지니어
- hadoop
- Today
- Total
목록DataEngineering (11)
Hyesung Oh
Spark가 JVM 위에서 동작하는 사실은 Spark 개발자라면 누구나 아는 사실입니다. Pyspark 구동의 핵심 부분인 Python process와 JVM process간의 객체 레벨 통신에 대해서 궁금증이 생겼습니다. 아래 본문은 Pyspark 소스코드를 파헤치며 파악한 내용들이며 잘못된 내용에 대한 피드백 주시면 책임감을 가지고 수정하겠습니다. Overview PySpark is built on top of Spark's Java API. Data is processed in Python and cached / shuffled in the JVM The In the Python driver program, SparkContext uses Py4J to launch a JVM and create a..
Scala Spark에서 Pyspark로의 이전을 진행하며 겪었던 시행착오와 고민들을 공유하고자 합니다. 프로젝트 구조 spark 아래에 core, tasks, util 폴더를 두었습니다. tasks: spark-submit 호출시 PY_FILE로 넘겨주는 python file이며 spark context를 초기화하며 pyspark dataframe api를 이용하여 비즈니스로직을 구현합니다. core: 모든 Spark application에서 데이터 로드, 처리, 적재시 공통적으로 사용되는 논리적인 개념을 추상화한 모듈을 정의했습니다. 아래에서 자세히 다루겠습니다. util: tasks 또는 core에서 공통적으로 사용되는 패턴 또는 utility 기능들을 정의했습니다. 1. tasks - app - ..
Posting 목적 Hive, RDBMS, HBASE, HDFS 등.. 공부하다 보면 각 시스템들의 특징과 차이점이 명확히 구분히 안가고 혼동되는 경우가 잦았습니다. 이에 이번 기회에 정리하게 되었습니다. Hive vs RDBMS 출처 : stackoverrun.com/ko/q/1751170 요약하면, 다음과 같다. Hive RDMBS Is Database No. Its called Data Warehouse Yes SQL No, but SQL-Like query data stored in various databases - you can use sqoop to import data from RDBMS to Hive Yes OLTP/OLAP OLAP OLTP Record Level manipulation..