Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- cloudera
- 클라우데라
- spark
- 추천시스템
- Python
- 하둡에코시스템
- 빅데이터
- kafka
- 빅데이터플랫폼
- 개발자
- redis bloom filter
- DataEngineering
- eks
- pyspark
- 개발자혜성
- 하둡
- dataengineer
- kubernetes
- apache spark
- Spark structured streaming
- Terraform
- BigData
- Data engineering
- 데이터엔지니어링
- hadoop
- 블로그
- 데이터엔지니어
- AWS SageMaker
- mlops
- recommendation system
Archives
- Today
- Total
목록aws controller for k8s (1)
Hyesung Oh

서론 배치성 Spark Job은 Airflow에서 trigger 하였지만 Streaming application은 이와 달리 클러스터를 상시 점유하고 있어 다음과 같은 요구사항을 가진다. 애플리케이션 배포, 상태를 선언적으로 관리할 수 있어야 한다. 하나 이상의 Kakfa Topic을 구독하는 애플리케이션(subscriber) 배포 시에 필요한 resource 정의 (코드)를 재활용할 수 있어야 한다. 개발자는 master에 merge 하면 코드는 자동으로 배포되어야 한다. 참고로 필자는 1을 만족하기 위해 ack-emrcontainers-controller를, 2를 위해 helm chart를, 3을 위해 argocd를 사용하였지만, 이는 각자 처한 상황에 맞게 다르게 가져갈 수 있다. 또한 아래 기술들..
Data Engineering/Apache Spark
2023. 8. 13. 06:59