Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 개발자혜성
- 추천시스템
- apache spark
- 블로그
- 데이터엔지니어
- recommendation system
- Data engineering
- dataengineer
- 하둡에코시스템
- 하둡
- pyspark
- hadoop
- 빅데이터
- Terraform
- Spark structured streaming
- 데이터엔지니어링
- kubernetes
- DataEngineering
- mlops
- spark
- kafka
- 클라우데라
- Python
- 개발자
- BigData
- AWS SageMaker
- redis bloom filter
- 빅데이터플랫폼
- eks
- cloudera
Archives
- Today
- Total
목록py4j (1)
Hyesung Oh
Pyspark 도입 후 고도화하기/ 2. Pyspark 작동 원리 feat. Py4J
Spark가 JVM 위에서 동작하는 사실은 Spark 개발자라면 누구나 아는 사실입니다. Pyspark 구동의 핵심 부분인 Python process와 JVM process간의 객체 레벨 통신에 대해서 궁금증이 생겼습니다. 아래 본문은 Pyspark 소스코드를 파헤치며 파악한 내용들이며 잘못된 내용에 대한 피드백 주시면 책임감을 가지고 수정하겠습니다. Overview PySpark is built on top of Spark's Java API. Data is processed in Python and cached / shuffled in the JVM The In the Python driver program, SparkContext uses Py4J to launch a JVM and create a..
Data Engineering/Apache Spark
2021. 11. 1. 22:45