전체 글110 파이썬에서 Google GCS에 파일 업로드 GCP 환경 설정권한 - Service Account 생성Service Account 생성 (IAM → Service Account → 서비스 계정 만들기)Key 생성 → JSON → 만들기GCS 버킷 생성Cloud Storage → 버킷 → 만들기이름과 위치 외에는 디폴트 설정 사용Python 코드 작성라이브러리 설치GCS 파이썬 클라이언트 설치pip install google-cloud-storage생성한 버킷에 파일 업로드from google.cloud import storage# 생성한 Key를 사용하도록 storage client 설정credentials_file = ''storage_client = storage.Client.from_service_account_json(credentials_.. 2024. 5. 5. 견고한 데이터 엔지니어링 - 데이터 엔지니어링이란? 아래 내용은 견고한 데이터 엔지니어링(조 라이스, 맷 하우슬리 지음)의 1.1장의 내용을 정리한 것이다.1.1 데이터 엔지니어링이란?데이터 엔지니어링은 2010년대 데이터사이언스의 부상과 함께 급격히 주목받기 시작했다. 데이터엔지니어링의 정의는 매우 여러가지가 있어서, ‘데이터 엔지니어링이란?’ 에 대한 답변도 매우 다양하다.1.1.1 데이터 엔지니어링 정의이 책에서는 데이터 엔지니어링과 데이터 엔지니어를 아래와 같이 정의 한다. 데이터 엔지니어링 데이터 엔지니어링은 Raw데이터를 가져와 분석 및 머신러닝과 같은 다운스트림 사용 사례를 지원하는, 고품질의 일관된 정보를 생성하는 시스템과 프로세스의 개발, 구현 및 유지 관리이다. 데이터 엔지니어링은 보안, 데이터관리, 데이터 운영, 데이터 아키텍처, 오케.. 2024. 4. 20. Helm Chart로 쿠버네티스에 Airflow설치(KubernetesExecutor 사용) 💡 본문에서 설명하는 내용은 아래의 환경이나 설정을 따른다. - Airflow version: 2.5.3 - AWS 클라우드를 사용하며 EKS에서 쿠버네티스 운영 - Airflow Executor: KubernetesExecutor - Helm Chart: 공식차트 사용 (User Community 차트 X) 초기 설정 네임스페이스 생성 kubectl create ns airflow helm repo 추가 # airflow repo 추가 helm repo add apache-airflow https://airflow.apache.org # repo 업데이트 helm repo update values.yaml 가져오기 airflow/chart/values.yaml at main · apache/airflo.. 2024. 4. 13. [Airflow] git-sync 설정하기 💡 Git-sync는 무엇인가? kubernetes에서 Airflow를 구성할 때 사이드카 컨테이너로 동작하면서 외부 repository의 dag의 코드를 Airflow 컨테이너에 sync해주는 역할을 합니다. 이를 통해 git repo의 특정 브랜치를 공통개발환경의 SOT(Source of Truth)로 활용 할 수 있습니다. Docker Compose Airflow 에서 설정 기본적으로 git-sync는 쿠버네티스 Airflow에 사이드카패턴으로 사용되기 때문에, docker compose 환경에서 사용하는 방법을 찾기가 제한적이다. 아래 이미지를 활용해서 간단하게 구성이 가능한데, 공식적으로 제공되거나 많이 사용 되는 이미지는 아니기 때문에 주의가 필요하다. https://github.com/dat.. 2024. 3. 31. 이전 1 ··· 3 4 5 6 7 8 9 ··· 28 다음