일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- redis bloom filter
- dataengineer
- Python
- eks
- mlops
- AWS SageMaker
- pyspark
- kafka
- Data engineering
- Terraform
- cloudera
- 하둡
- spark
- 클라우데라
- 빅데이터
- BigData
- DataEngineering
- 빅데이터플랫폼
- 추천시스템
- hadoop
- Spark structured streaming
- kubernetes
- recommendation system
- 데이터엔지니어
- apache spark
- 개발자
- 데이터엔지니어링
- 블로그
- 개발자혜성
- 하둡에코시스템
- Today
- Total
목록2024/06/17 (2)
Hyesung Oh
TL;DR지난 포스팅에서는 Bloom Filter 소개와 Pyspark Integration에 대해서 소개했습니다.https://surgach.tistory.com/140 Bloom Filter 를 사용해봅시다 [1] python, pyspark bloom filter 구현TL;DR개발자가 작성하는 많은 비즈니스로직에는 특정 조건, 집단에 해당하는 item, user만 포함 or 제외하는 형태가 많은 부분을 차지합니다. 특히 데이터 엔지니어의 경우 통계 마트 테이블을 만들surgach.tistory.comBloom Filter는 다양한 활용처가 있겠지만, 그중에서도 추천 시스템에 활용할 수 있습니다. Redis-stack에서는 Bloom Filter를 제공하는데요, 추천 결과를 유저에게 제공할 때, 유저..
TL;DR개발자가 작성하는 많은 비즈니스로직에는 특정 조건, 집단에 해당하는 item, user만 포함 or 제외하는 형태가 많은 부분을 차지합니다. 특히 데이터 엔지니어의 경우 통계 마트 테이블을 만들일이 많기 때문에 이와 같은 패턴에 익숙할 것입니다. 그중 Spark를 예를 들어, (1) user별 구매이력, (2) user 정보 두 테이블이 있을 때, user id를 key로 하여 두 테이블을 join 후 특정 조건 (1)에 해당하는 row만 (2)에서 filter 하는 식일 것입니다.하지만 join시 여러 worker node간에 분산 배치되어 있는 동일 key들을 동일 partition에 위치시키기 위해 필연적으로 동반되는 shuffling 동작은 데이터가 커질 시 병목으로 작용하게 됩니다. S..