Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- DataEngineering
- pyspark
- eks
- 클라우데라
- 개발자혜성
- mlops
- kubernetes
- 추천시스템
- 빅데이터플랫폼
- 개발자
- 데이터엔지니어링
- 데이터엔지니어
- 블로그
- hadoop
- dataengineer
- spark
- AWS SageMaker
- apache spark
- recommendation system
- 하둡에코시스템
- redis bloom filter
- 하둡
- BigData
- cloudera
- Spark structured streaming
- Python
- Terraform
- Data engineering
- 빅데이터
- kafka
Archives
- Today
- Total
목록cloud native devops (1)
Hyesung Oh
ack-emr-containers controller&custom Helm chart를 이용한 Spark Structured Streaming 어플리케이션 배포 feat. ArgoCD
서론 배치성 Spark Job은 Airflow에서 trigger 하였지만 Streaming application은 이와 달리 클러스터를 상시 점유하고 있어 다음과 같은 요구사항을 가진다. 애플리케이션 배포, 상태를 선언적으로 관리할 수 있어야 한다. 하나 이상의 Kakfa Topic을 구독하는 애플리케이션(subscriber) 배포 시에 필요한 resource 정의 (코드)를 재활용할 수 있어야 한다. 개발자는 master에 merge 하면 코드는 자동으로 배포되어야 한다. 참고로 필자는 1을 만족하기 위해 ack-emrcontainers-controller를, 2를 위해 helm chart를, 3을 위해 argocd를 사용하였지만, 이는 각자 처한 상황에 맞게 다르게 가져갈 수 있다. 또한 아래 기술들..
Data Engineering/Apache Spark
2023. 8. 13. 06:59