'eks' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록eks (3)

Hyesung Oh

Nvidia Container Toolkit, Nvidia device plugin에 대해 알아봅시다. feat. CRI, CDI

개요 현재 팀의 Machine Learning 파이프라인의 모델 학습 워크로드는 아래와 같은 컴포넌트들로 구성되어있습니다. 출처: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/index.html model.train()를 entrypoint로 하는 pod pod node의 gpu resource allocation 및 container가 사용할 device config 정보를 kubelet에 등록하는 nvidia device plugin daemonset pod container runtime 및 runc prestart hook을 통해 container에서 사용할 수 있는 device를 설정해주는 nvidia cont..

Data Engineering/MLOps 2024. 3. 30. 20:31

ack-emr-containers controller&custom Helm chart를 이용한 Spark Structured Streaming 어플리케이션 배포 feat. ArgoCD

서론 배치성 Spark Job은 Airflow에서 trigger 하였지만 Streaming application은 이와 달리 클러스터를 상시 점유하고 있어 다음과 같은 요구사항을 가진다. 애플리케이션 배포, 상태를 선언적으로 관리할 수 있어야 한다. 하나 이상의 Kakfa Topic을 구독하는 애플리케이션(subscriber) 배포 시에 필요한 resource 정의 (코드)를 재활용할 수 있어야 한다. 개발자는 master에 merge 하면 코드는 자동으로 배포되어야 한다. 참고로 필자는 1을 만족하기 위해 ack-emrcontainers-controller를, 2를 위해 helm chart를, 3을 위해 argocd를 사용하였지만, 이는 각자 처한 상황에 맞게 다르게 가져갈 수 있다. 또한 아래 기술들..

Data Engineering/Apache Spark 2023. 8. 13. 06:59

Terraform으로 AWS EKS의 aws-auth configmap 관리하기

terraform import kubernetes_config_map.aws_auth kube-system/aws-auth EKS 클러스터 생성 후 사용자 역할을 추가하기 위해 aws-auth configmap를 Terraform resource로 관리하게 되었다. 참고 resource "kubernetes_config_map" "aws_auth" { data = yamldecode(local.eks_prod_aws_auth_configmap_yaml)["data"] metadata { name = "aws-auth" namespace = "kube-system" } } aws-auth configmap의 경우 EKS 클러스터가 만들어질 때 자동으로 클러스터 생성자의 IAM Role이 systemr:ma..

Data Engineering/DevOps 2022. 4. 28. 22:58

Prev 1 Next

목록eks (3)

Hyesung Oh

티스토리툴바