AWS

A collection of 5 posts
EMR on EKS 환경에서 spark driver 와 executor 가 같은 AZ 에 스케쥴링 되도록 하는 방법 (가용성까지 확보하면서)
Airflow Featured

EMR on EKS 환경에서 spark driver 와 executor 가 같은 AZ 에 스케쥴링 되도록 하는 방법 (가용성까지 확보하면서)

💡emr-on-eks 환경에서 spark driver pod 와 executor pod 가 서로 다른 AZ(가용영역)에 있으면 AZ 간 통신비용이 많이 발생하게 됩니다. 따라서 spark driver pod 가 쿠버네티스에 의해 특정 노드에 스케쥴링 되었을 때, executor pod 가 해당 driver pod 가 스케쥴링 된 노드의 AZ 와 동일한 AZ에 존재하는 노드에 스케쥴링
11 min read
Airflow 무중단 이전
K8s Featured

Airflow 무중단 이전

최근 EKS 클러스터 버전 업그레이드를, 노드별로 in-place 업그레이드 하는것이 아닌, 새로운 버전의 EKS 를 준비해서 기존버전 -> 신규버전으로 일종의 rolling update를 하는 작업을 진행하게 되었다. 이 때 여러 Addon(Istio, Argocd 등등), 애플리케이션들을 이전했는데, 특히 Airflow 를 무중단으로 이전하는 방법에 대해서 고민하고, 실제로 무중단로 이전한 과정에 대해서 공유해보고자 한다.
7 min read
S3 다운로드 작업시 동기, 비동기, 멀티스레드, 멀티프로세스 성능 비교 (python)
S3 Featured

S3 다운로드 작업시 동기, 비동기, 멀티스레드, 멀티프로세스 성능 비교 (python)

최근 많은 파일들 (버킷 자체로 따지면 천만개 이상, Prefix 나 날짜별로 분리해도 수천~수만 이상)들을 다운로드받고 그것을 tar.gz 으로 아카이브 및 압축을 해서 특정 버킷에 glacier 클래스로 밀어넣어야 하는 요구사항을 처리하게 되었다. 이 때 파일을 다운로드 받아야 아카이브 및 압축을 할 수 있기 때문에 처음에는 aws cli 를
14 min read