본문 바로가기

Data Engineering24

Docker compose 사용해서 Flink 설치 docker compose 사용해서 Flink 설치docker-compose.ymlversion: "2.2"services: jobmanager: image: flink:latest ports: - "8081:8081" command: jobmanager environment: - | FLINK_PROPERTIES= jobmanager.rpc.address: jobmanager taskmanager: image: flink:latest depends_on: - jobmanager command: taskmanager scale: 1 environment: - | FL.. 2025. 2. 2.

스트림처리와 Apache Flink ververica academy 영상 을 보고 정리한 글Stream Processing이벤트 데이터가 연속적이고 순차적으로 in/out될수 있도록 하며, 데이터가 들어오면 즉각적으로 processing됨Fault tolerance를 보장하기 위해서 주기적으로 상태를 체크하고 저장각 이벤트는 독립적으로 처리됨Usecase실시간 데이터파이프라인실시간 분석머신러닝event-driven 어플리케이션Apache FlinkFault tolerance와 exactly-once가 보장되는 오픈소스 stream processing 시스템Checkpoint를 가지고 fault tolerance를 자동으로 보장실시간 데이터 처리와 batch 데이터 처리가 모두 지원됨다양한 API를 제공해서 여러 사용사례에 적합하게 사용됨D.. 2025. 1. 26.

DuckDB를 사용해서 Iceberg 테이블에 쿼리 실행하기 Iceberg테이블을 Glue Catalog로 관리하면서 사용하고 있는데, 해당 테이블에 쿼리를 실행하고자 해서 방법을 찾아봤다. 테이블의 용량이 크지 않아 스파크를 사용하고 있지 않다보니, Iceberg 테이블 쿼리에 많이 사용되는 Spark SQL 사용이 어려웠다. 이에 대한 대안으로 DuckDB를 사용하는 방법을 발견해서 적용해보았다.DuckDB를 사용해서 Iceberg 테이블에 쿼리를 하는 방안으로 2가지를 찾았다.DuckDB 라이브러리에서 Iceberg Extension을 설치해서 바로 테이블에 쿼리 실행PyIceberg로 테이블을 먼저 로드해서 이를 DuckDB에 연결 후 쿼리 실행두가지 방법 모두 시도해 본 결과 2번 방법을 채택해서 사용하기로 했다. 각 방법의 상세 내용을 아래에 기록하고자.. 2024. 9. 15.

견고한 데이터 엔지니어링 - 데이터 수집 아래 내용은 견고한 데이터 엔지니어링(조 라이스, 맷 하우슬리 지음)의 7장의 내용 일부를 정리한 것이다. 7.1 데이터 수집이란?원천시스템에서 스토리지로 데이터가 이동하는 것으로, 데이터 엔지니어링 수명 주기에서 중간 단계에서 이루어 진다.데이터 파이프라인이란? 데이터 파이프라인은 데이터 엔지니어링 수명 주기의 단계를 통해 데이터를 이동시키는 아키텍처, 시스템 및 프로세스의 조합7.2 수집 단계의 주요 엔지니어링 고려사항수집 시스템을 설계,구축 할때 고민해봐야 할 질문들수집 데이터의 사용 사례데이터 재사용성데이터 목적지갱신 주기데이터 양데이터 형식데이터 품질데이터 처리 필요 여부수집 아키텍처를 설계할 때 고려해야 하는 요소유한 데이터 vs 무한 데이터빈도동기 수집 vs 비동기 수집직렬화와 역질렬화처리량.. 2024. 8. 18.

이전 1 2 3 4 ··· 6 다음

티스토리툴바