일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- BigData
- hadoop
- 빅데이터
- eks
- cloudera
- AWS SageMaker
- DataEngineering
- Spark structured streaming
- Python
- 데이터엔지니어
- 개발자혜성
- 빅데이터플랫폼
- Terraform
- redis bloom filter
- 클라우데라
- 데이터엔지니어링
- kubernetes
- 개발자
- mlops
- kafka
- spark
- recommendation system
- 하둡에코시스템
- Data engineering
- 블로그
- dataengineer
- 추천시스템
- pyspark
- apache spark
- 하둡
- Today
- Total
목록Data Engineering/Apache Spark (10)
Hyesung Oh
Scala Spark에서 Pyspark로의 이전을 진행하며 겪었던 시행착오와 고민들을 공유하고자 합니다. 프로젝트 구조 spark 아래에 core, tasks, util 폴더를 두었습니다. tasks: spark-submit 호출시 PY_FILE로 넘겨주는 python file이며 spark context를 초기화하며 pyspark dataframe api를 이용하여 비즈니스로직을 구현합니다. core: 모든 Spark application에서 데이터 로드, 처리, 적재시 공통적으로 사용되는 논리적인 개념을 추상화한 모듈을 정의했습니다. 아래에서 자세히 다루겠습니다. util: tasks 또는 core에서 공통적으로 사용되는 패턴 또는 utility 기능들을 정의했습니다. 1. tasks - app - ..
apache spark official github repo: github.com/apache/spark 1. 이해의 출발 지점은 바로, 우리가 spark-shell REPL를 사용하기 위해 실행하는 bin/spark-shell 스크립트 # Shell script for starting the Spark Shell REPL cygwin=false case "$(uname)" in CYGWIN*) cygwin=true;; esac * cygwin: window에서 linux터미널을 사용할 수 있게 해주는 오픈소스 현재 터미널이 linux이면 true, window이면 false정도로 이해했다. function main() { if $cygwin; then # Workaround for issue invol..