Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- AWS SageMaker
- pyspark
- 빅데이터플랫폼
- Terraform
- 추천시스템
- redis bloom filter
- 하둡에코시스템
- kafka
- 클라우데라
- kubernetes
- spark
- mlops
- 빅데이터
- apache spark
- 데이터엔지니어
- hadoop
- Spark structured streaming
- DataEngineering
- dataengineer
- 하둡
- 데이터엔지니어링
- BigData
- cloudera
- recommendation system
- 개발자
- eks
- Data engineering
- 개발자혜성
- Python
- 블로그
Archives
- Today
- Total
목록py4j (1)
Hyesung Oh

Spark가 JVM 위에서 동작하는 사실은 Spark 개발자라면 누구나 아는 사실입니다. Pyspark 구동의 핵심 부분인 Python process와 JVM process간의 객체 레벨 통신에 대해서 궁금증이 생겼습니다. 아래 본문은 Pyspark 소스코드를 파헤치며 파악한 내용들이며 잘못된 내용에 대한 피드백 주시면 책임감을 가지고 수정하겠습니다. Overview PySpark is built on top of Spark's Java API. Data is processed in Python and cached / shuffled in the JVM The In the Python driver program, SparkContext uses Py4J to launch a JVM and create a..
Data Engineering/Apache Spark
2021. 11. 1. 22:45