일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터엔지니어
- recommendation system
- 빅데이터플랫폼
- dataengineer
- eks
- 하둡
- Spark structured streaming
- DataEngineering
- 추천시스템
- kubernetes
- 블로그
- Terraform
- 개발자혜성
- 데이터엔지니어링
- 개발자
- hadoop
- cloudera
- spark
- 빅데이터
- apache spark
- Data engineering
- redis bloom filter
- AWS SageMaker
- Python
- mlops
- pyspark
- 클라우데라
- BigData
- kafka
- 하둡에코시스템
- Today
- Total
목록AWS (2)
Hyesung Oh
서론 사내 인프라는 개발 환경별로 별도 AWS 계정으로 운영중이고, 만찬가지로 팀에서 운영중인 데이터 인프라 또한 별도 AWS 계정으로 분리되어있다. Datalake로 부르는 S3는 운영환경 계정에 존재하며, 이는 빅데이터 특성상 방대한 양의 데이터를 환경별로 관리하는데 드는 비용과 데이터 저장 비용을 고려했을 때 합리적인 선택지였다. 하지만 이로 인해 인프라적인 복잡도가 다소 올라가긴하였다. Batch, Streaming workload는 모두 EKS위에서 동작 중이지만, RDBS와 S3, Athena 등의 데이터 소스는 모두 운영환경에만 존재하기 때문이다. 이 과정에서의 문제 해결경험들을 정리해보려한다. 상황 이해 상황은 아래 그림과 같다. 그림에선 생략했지만 Application은 Data 환경의 ..
#AWS#EC2#ElasticBeanstalk 본인 pc 운영체제: window 생성한 ec2 운영체제 : ubuntu 1. ec2 인스턴스 생성 후 접속 - aws console 에 로그인해서 ec2 - 인스턴스 시작 - ec2 ami 에서 탬플릿 선택 (여기선 프리티어 선택) -> 검토 및 시작 -> 인스턴스 보기 * 주의 : 검토 및 시작 버튼 클릭 후 처음이자 마지막으로 ec2 접속키인 private key를 다운받을 수 있으므로 본인 pc (local) .ssh 디렉토리 하위에 저장해두는 것을 권장 pending 상태에서 10초 정도 기다리고 running 으로 바뀌는지 확인 - putty 접속 -> SSH -> auth -> private key load -> Session 으로 돌아가서 ho..