Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- Spark structured streaming
- 클라우데라
- Terraform
- Data engineering
- cloudera
- 빅데이터
- apache spark
- Python
- spark
- mlops
- redis bloom filter
- DataEngineering
- 개발자혜성
- 블로그
- eks
- kafka
- 데이터엔지니어
- 하둡
- hadoop
- dataengineer
- 개발자
- 하둡에코시스템
- 데이터엔지니어링
- AWS SageMaker
- kubernetes
- 빅데이터플랫폼
- pyspark
- 추천시스템
- BigData
- recommendation system
Archives
- Today
- Total
목록py4j (1)
Hyesung Oh

Spark가 JVM 위에서 동작하는 사실은 Spark 개발자라면 누구나 아는 사실입니다. Pyspark 구동의 핵심 부분인 Python process와 JVM process간의 객체 레벨 통신에 대해서 궁금증이 생겼습니다. 아래 본문은 Pyspark 소스코드를 파헤치며 파악한 내용들이며 잘못된 내용에 대한 피드백 주시면 책임감을 가지고 수정하겠습니다. Overview PySpark is built on top of Spark's Java API. Data is processed in Python and cached / shuffled in the JVM The In the Python driver program, SparkContext uses Py4J to launch a JVM and create a..
Data Engineering/Apache Spark
2021. 11. 1. 22:45