일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- kafka
- 빅데이터
- dataengineer
- apache spark
- BigData
- hadoop
- Spark structured streaming
- 추천시스템
- Python
- eks
- 개발자혜성
- DataEngineering
- 하둡에코시스템
- pyspark
- 데이터엔지니어
- Terraform
- 블로그
- 빅데이터플랫폼
- mlops
- 클라우데라
- recommendation system
- Data engineering
- cloudera
- 데이터엔지니어링
- 개발자
- AWS SageMaker
- 하둡
- redis bloom filter
- kubernetes
- spark
- Today
- Total
목록dataengineer (4)
Hyesung Oh
GTM vs GA 구글태그매니저(GTM) 와 구글 애널리틱스(GA)의 설치면에서 차이를 본다면 아래 그림과 같다. 구글애널리틱스(GA) : 웹사이트에 GA 스크립트를 삽입한다. 구글 태그매니저는(GTM) : 웹사이트의 GTM 스크립트를 삽입 후, GTM 을 통해 GA를 연결한다. 이로써, 구글 태그매니저는 GA의 관리자 역할을 한다. 구글애널리틱스(GA)는 여러 유입/행동 레포트나 중요사항에 대한 목표/전환을 설정할 수 있다. 구글 태그매니저는(GTM)은 레포트나, 목표/전환을 제공하지는 않는다. 다만 여러 GA 같은 tool 을 설치/관리하게 해준다. middle-man 개념으로 보면 되겠다. 구글애널리틱스(GA)는 구글 태그매니저는(GTM) 없이도, 설치되어 사용될 수 있다. 구글 태그매니저는(GTM..
조금만 검색해보면 spark Performance tuning과 관련된 좋은 참고자료들이 많이 있습니다. 그 중에서 실제 팀에서 적용하여 효과를 보고있는 내용만 선별하여 공유하고자 합니다. 크게 코드 레벨에서의 최적화와 configuration 레벨에서의 최적화 두 가지가 있을 것 같습니다. 1. Code Level Opimization point 1. filter -> aggregation. aggregation을 하게 되면 driver 노드에 많은 부하가 있을 수 있습니다. 따라서 이럴 경우 reduceByKey를 이용하여 driver로 전송되는 데이터 사이즈를 최대한 줄이는게 포인트입니다. point 2. Iterator 최대한 활용하기 driver node로 데이터를 불러와서 작업을 해야하는 경우..
Spark가 JVM 위에서 동작하는 사실은 Spark 개발자라면 누구나 아는 사실입니다. Pyspark 구동의 핵심 부분인 Python process와 JVM process간의 객체 레벨 통신에 대해서 궁금증이 생겼습니다. 아래 본문은 Pyspark 소스코드를 파헤치며 파악한 내용들이며 잘못된 내용에 대한 피드백 주시면 책임감을 가지고 수정하겠습니다. Overview PySpark is built on top of Spark's Java API. Data is processed in Python and cached / shuffled in the JVM The In the Python driver program, SparkContext uses Py4J to launch a JVM and create a..
Scala Spark에서 Pyspark로의 이전을 진행하며 겪었던 시행착오와 고민들을 공유하고자 합니다. 프로젝트 구조 spark 아래에 core, tasks, util 폴더를 두었습니다. tasks: spark-submit 호출시 PY_FILE로 넘겨주는 python file이며 spark context를 초기화하며 pyspark dataframe api를 이용하여 비즈니스로직을 구현합니다. core: 모든 Spark application에서 데이터 로드, 처리, 적재시 공통적으로 사용되는 논리적인 개념을 추상화한 모듈을 정의했습니다. 아래에서 자세히 다루겠습니다. util: tasks 또는 core에서 공통적으로 사용되는 패턴 또는 utility 기능들을 정의했습니다. 1. tasks - app - ..