Data Engineering/Flink4 Docker compose 사용해서 Flink 설치 docker compose 사용해서 Flink 설치docker-compose.ymlversion: "2.2"services: jobmanager: image: flink:latest ports: - "8081:8081" command: jobmanager environment: - | FLINK_PROPERTIES= jobmanager.rpc.address: jobmanager taskmanager: image: flink:latest depends_on: - jobmanager command: taskmanager scale: 1 environment: - | FL.. 2025. 2. 2. 스트림처리와 Apache Flink ververica academy 영상 을 보고 정리한 글Stream Processing이벤트 데이터가 연속적이고 순차적으로 in/out될수 있도록 하며, 데이터가 들어오면 즉각적으로 processing됨Fault tolerance를 보장하기 위해서 주기적으로 상태를 체크하고 저장각 이벤트는 독립적으로 처리됨Usecase실시간 데이터파이프라인실시간 분석머신러닝event-driven 어플리케이션Apache FlinkFault tolerance와 exactly-once가 보장되는 오픈소스 stream processing 시스템Checkpoint를 가지고 fault tolerance를 자동으로 보장실시간 데이터 처리와 batch 데이터 처리가 모두 지원됨다양한 API를 제공해서 여러 사용사례에 적합하게 사용됨D.. 2025. 1. 26. Flink Datastream 변환 연산 정리 - KeyedStream 변환 연산 Flink Datastream 변환 연산 정리 - 기본 변환 의 글에서 이어지는 글이다. KeyedStream 변환 연산은 입력레코드의 특정 Key를 기준으로 레코드를 분류해서 처리하는 연산이다. DataStream으로 들어오는 입력 레코드를 keyBy 연산을 이용해서 각 key의 값별로 분류된 KeyedStream으로 내보낸다. KeyBy 연산을 자세하게 알아보기에 앞서, 이전 글과 마찬가지로 이번 글에서 작성할 예제 코드 들은 아래와 같은 형식을 갖는 Json 타입의 DataStream을 입력 이벤트로 받아 처리하는 코드이다. { "meta": { "time": 1687140191352, "message_id": "msg-230619110311352" }, "event": { "event_type":.. 2023. 7. 2. Flink Datastream 변환 연산 정리 - 기본 변환 이번에 Amazon Kinesis Data Analytics를 사용하면서 Flink를 공부하는 중에 많이 쓰이는 변환연산을 정리해 두려고 한다. Flink를 공부하면서 “아파치 플링크로 하는 데이터 처리, 파비안 휴스케, 바실리키 칼라브리, 에이콘” 책을 참고하였고, 이 글에 작성되는 내용의 일부는 책의 내용을 가져 왔다. 변환 연산? 변환 연산은 말 그대로 DataStream을 입력받아서 여러 종류의 변환을 거친 뒤 입력 값과 다른형태의 출력값을 내보낸다. DataStream API 작성의 본질은 애플리케이션 로직을 구현하는 데이터플로우를 생성 할 때 여러 변환 연산을 조합하는 것 이라 할 수 있다. 거의 모든 변환 연산은 사용자 정의 함수를 바탕으로 하며, 변환 복적의 함수 인터페이스를 클래스로 구현.. 2023. 6. 22. 이전 1 다음