Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 하둡에코시스템
- 개발자
- DataEngineering
- dataengineer
- kafka
- 빅데이터플랫폼
- cloudera
- AWS SageMaker
- hadoop
- BigData
- apache spark
- Data engineering
- recommendation system
- 개발자혜성
- 빅데이터
- pyspark
- 클라우데라
- 블로그
- 하둡
- kubernetes
- 추천시스템
- 데이터엔지니어
- Spark structured streaming
- mlops
- eks
- spark
- 데이터엔지니어링
- redis bloom filter
- Python
- Terraform
Archives
- Today
- Total
목록AWS EMR (1)
Hyesung Oh
AWS EMR: EMRFS의 핵심 기능 들 feat. consistent view, S3-optimized committer
EMRFS EMR의 S3 파일 읽기 쓰기와 관련된 프로토콜 집합이며, Amazon S3로 직접 일반 파일을 읽고 쓰는 데 사용하는 HDFS 구현체이다. 그리고 여기엔 다양한 기능들이 포함되는데, 그 중에서도 대표적으로 실무에서 가장 많이 이슈를 겪었던 consistent view와 s3-optimized commiter에 대해 다뤄보려 한다. EMRFS consistent view EMR에서는 file consistency를 강화하기 위해 자체적인 consistent view 메커니즘을 지원한다. EMR이 S3 또는 file system에 파일에 대한 메타정보를 DynamoDB에 관리한다. EMR 단에서 file을 create, delete를 하게 되면, 정상적으로 DynamoDB 메타정보와 sync가 ..
Data Engineering/Apache Spark
2022. 4. 28. 22:07