일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- 하둡
- cloudera
- 추천시스템
- mlops
- DataEngineering
- redis bloom filter
- dataengineer
- 개발자
- eks
- Python
- apache spark
- BigData
- Data engineering
- 데이터엔지니어링
- 클라우데라
- Terraform
- 하둡에코시스템
- 빅데이터플랫폼
- kubernetes
- AWS SageMaker
- 블로그
- 빅데이터
- 데이터엔지니어
- pyspark
- 개발자혜성
- Spark structured streaming
- kafka
- recommendation system
- spark
- Today
- Total
목록Cloud/AWS (3)
Hyesung Oh
이슈 AWS RDS mariadb -> AWS Aurora MySQL 3.0 으로 마이그레이션 이후, 특정 OLAP 쿼리에서 아래 에러가 발생하였습니다. java.sql.SQLException: The table '/rdsdbdata/tmp/#sql6f81_38f4982_2' is full 원인파악 Mysql 8.0에선 아래 조건이 만족될 때 내부적으로 임시 테이블을 생성합니다. https://dev.mysql.com/doc/refman/8.0/en/internal-temporary-tables.html Evaluation of [UNION]() statements, with some exceptions described later. Evaluation of some views, such those ..
서론 사내 인프라는 개발 환경별로 별도 AWS 계정으로 운영중이고, 만찬가지로 팀에서 운영중인 데이터 인프라 또한 별도 AWS 계정으로 분리되어있다. Datalake로 부르는 S3는 운영환경 계정에 존재하며, 이는 빅데이터 특성상 방대한 양의 데이터를 환경별로 관리하는데 드는 비용과 데이터 저장 비용을 고려했을 때 합리적인 선택지였다. 하지만 이로 인해 인프라적인 복잡도가 다소 올라가긴하였다. Batch, Streaming workload는 모두 EKS위에서 동작 중이지만, RDBS와 S3, Athena 등의 데이터 소스는 모두 운영환경에만 존재하기 때문이다. 이 과정에서의 문제 해결경험들을 정리해보려한다. 상황 이해 상황은 아래 그림과 같다. 그림에선 생략했지만 Application은 Data 환경의 ..
#AWS#EC2#ElasticBeanstalk 본인 pc 운영체제: window 생성한 ec2 운영체제 : ubuntu 1. ec2 인스턴스 생성 후 접속 - aws console 에 로그인해서 ec2 - 인스턴스 시작 - ec2 ami 에서 탬플릿 선택 (여기선 프리티어 선택) -> 검토 및 시작 -> 인스턴스 보기 * 주의 : 검토 및 시작 버튼 클릭 후 처음이자 마지막으로 ec2 접속키인 private key를 다운받을 수 있으므로 본인 pc (local) .ssh 디렉토리 하위에 저장해두는 것을 권장 pending 상태에서 10초 정도 기다리고 running 으로 바뀌는지 확인 - putty 접속 -> SSH -> auth -> private key load -> Session 으로 돌아가서 ho..