Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- BigData
- pyspark
- 빅데이터
- redis bloom filter
- kubernetes
- kafka
- Python
- 데이터엔지니어링
- 하둡
- mlops
- 추천시스템
- 데이터엔지니어
- spark
- 빅데이터플랫폼
- 블로그
- hadoop
- 개발자
- DataEngineering
- 클라우데라
- 하둡에코시스템
- apache spark
- Spark structured streaming
- recommendation system
- dataengineer
- 개발자혜성
- cloudera
- Data engineering
- Terraform
- eks
- AWS SageMaker
Archives
- Today
- Total
목록bloom filter (1)
Hyesung Oh
Bloom Filter 를 사용해봅시다 [1] python, pyspark bloom filter 구현
TL;DR개발자가 작성하는 많은 비즈니스로직에는 특정 조건, 집단에 해당하는 item, user만 포함 or 제외하는 형태가 많은 부분을 차지합니다. 특히 데이터 엔지니어의 경우 통계 마트 테이블을 만들일이 많기 때문에 이와 같은 패턴에 익숙할 것입니다. 그중 Spark를 예를 들어, (1) user별 구매이력, (2) user 정보 두 테이블이 있을 때, user id를 key로 하여 두 테이블을 join 후 특정 조건 (1)에 해당하는 row만 (2)에서 filter 하는 식일 것입니다.하지만 join시 여러 worker node간에 분산 배치되어 있는 동일 key들을 동일 partition에 위치시키기 위해 필연적으로 동반되는 shuffling 동작은 데이터가 커질 시 병목으로 작용하게 됩니다. S..
Data Engineering/Apache Spark
2024. 6. 17. 20:01