Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- AWS SageMaker
- kubernetes
- 개발자혜성
- 빅데이터
- 클라우데라
- Python
- 하둡
- 데이터엔지니어
- 하둡에코시스템
- Data engineering
- spark
- recommendation system
- 개발자
- dataengineer
- mlops
- hadoop
- Spark structured streaming
- pyspark
- BigData
- Terraform
- 데이터엔지니어링
- 블로그
- apache spark
- cloudera
- eks
- kafka
- 추천시스템
- redis bloom filter
- 빅데이터플랫폼
- DataEngineering
Archives
- Today
- Total
목록pyathena (1)
Hyesung Oh
PyAthena를 사용한 AWS Athena cross account access feat. assume role chaining
서론 사내 인프라는 개발 환경별로 별도 AWS 계정으로 운영중이고, 만찬가지로 팀에서 운영중인 데이터 인프라 또한 별도 AWS 계정으로 분리되어있다. Datalake로 부르는 S3는 운영환경 계정에 존재하며, 이는 빅데이터 특성상 방대한 양의 데이터를 환경별로 관리하는데 드는 비용과 데이터 저장 비용을 고려했을 때 합리적인 선택지였다. 하지만 이로 인해 인프라적인 복잡도가 다소 올라가긴하였다. Batch, Streaming workload는 모두 EKS위에서 동작 중이지만, RDBS와 S3, Athena 등의 데이터 소스는 모두 운영환경에만 존재하기 때문이다. 이 과정에서의 문제 해결경험들을 정리해보려한다. 상황 이해 상황은 아래 그림과 같다. 그림에선 생략했지만 Application은 Data 환경의 ..
Cloud/AWS
2023. 7. 22. 14:13