Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- Spark structured streaming
- 개발자
- recommendation system
- kafka
- Data engineering
- 추천시스템
- mlops
- redis bloom filter
- 하둡에코시스템
- 빅데이터플랫폼
- kubernetes
- 클라우데라
- 개발자혜성
- DataEngineering
- BigData
- hadoop
- Terraform
- 데이터엔지니어링
- cloudera
- pyspark
- apache spark
- Python
- 블로그
- spark
- eks
- 하둡
- AWS SageMaker
- 데이터엔지니어
- dataengineer
- 빅데이터
Archives
- Today
- Total
목록aws controller for k8s (1)
Hyesung Oh

서론 배치성 Spark Job은 Airflow에서 trigger 하였지만 Streaming application은 이와 달리 클러스터를 상시 점유하고 있어 다음과 같은 요구사항을 가진다. 애플리케이션 배포, 상태를 선언적으로 관리할 수 있어야 한다. 하나 이상의 Kakfa Topic을 구독하는 애플리케이션(subscriber) 배포 시에 필요한 resource 정의 (코드)를 재활용할 수 있어야 한다. 개발자는 master에 merge 하면 코드는 자동으로 배포되어야 한다. 참고로 필자는 1을 만족하기 위해 ack-emrcontainers-controller를, 2를 위해 helm chart를, 3을 위해 argocd를 사용하였지만, 이는 각자 처한 상황에 맞게 다르게 가져갈 수 있다. 또한 아래 기술들..
Data Engineering/Apache Spark
2023. 8. 13. 06:59