Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 블로그
- 개발자혜성
- redis bloom filter
- 개발자
- spark
- 빅데이터플랫폼
- 데이터엔지니어링
- Terraform
- kubernetes
- 빅데이터
- Spark structured streaming
- recommendation system
- mlops
- DataEngineering
- apache spark
- 하둡에코시스템
- Python
- AWS SageMaker
- 클라우데라
- hadoop
- 데이터엔지니어
- cloudera
- dataengineer
- eks
- pyspark
- 추천시스템
- 하둡
- BigData
- kafka
- Data engineering
Archives
- Today
- Total
목록cloud native devops (1)
Hyesung Oh

서론 배치성 Spark Job은 Airflow에서 trigger 하였지만 Streaming application은 이와 달리 클러스터를 상시 점유하고 있어 다음과 같은 요구사항을 가진다. 애플리케이션 배포, 상태를 선언적으로 관리할 수 있어야 한다. 하나 이상의 Kakfa Topic을 구독하는 애플리케이션(subscriber) 배포 시에 필요한 resource 정의 (코드)를 재활용할 수 있어야 한다. 개발자는 master에 merge 하면 코드는 자동으로 배포되어야 한다. 참고로 필자는 1을 만족하기 위해 ack-emrcontainers-controller를, 2를 위해 helm chart를, 3을 위해 argocd를 사용하였지만, 이는 각자 처한 상황에 맞게 다르게 가져갈 수 있다. 또한 아래 기술들..
Data Engineering/Apache Spark
2023. 8. 13. 06:59