Data Engineering24 Fluent Bit에서 특정 패턴 Exclude 하기 Grep Filter Fluent bit에서 제공하는 필터 중 하나. Grep Filter를 이용해서 특정 패턴의 데이터를 Select 하거나 Exclude 할 수 있다. Grep Filter는 아래와 같은 구조를 기본으로 사용 가능하다. [FILTER] Name grep Match #tag Regex or Exclude # Pattern 지정 Regex: 지정하는 패턴을 Select 함. 해당 패턴의 데이터만 추출 됨 Exclude: 지정하는 패턴을 Exclude 함. 해당 패턴의 데이터들은 제거됨. 필수로 지정해야 하는 파라미터 외에도 한개의 Optional 파라미터를 더 지원한다. Logical_Op: 논리 연산자 지정(AND, OR, legacy). Default는 legacy이며, includi.. 2023. 7. 23. Flink Datastream 변환 연산 정리 - KeyedStream 변환 연산 Flink Datastream 변환 연산 정리 - 기본 변환 의 글에서 이어지는 글이다. KeyedStream 변환 연산은 입력레코드의 특정 Key를 기준으로 레코드를 분류해서 처리하는 연산이다. DataStream으로 들어오는 입력 레코드를 keyBy 연산을 이용해서 각 key의 값별로 분류된 KeyedStream으로 내보낸다. KeyBy 연산을 자세하게 알아보기에 앞서, 이전 글과 마찬가지로 이번 글에서 작성할 예제 코드 들은 아래와 같은 형식을 갖는 Json 타입의 DataStream을 입력 이벤트로 받아 처리하는 코드이다. { "meta": { "time": 1687140191352, "message_id": "msg-230619110311352" }, "event": { "event_type":.. 2023. 7. 2. Flink Datastream 변환 연산 정리 - 기본 변환 이번에 Amazon Kinesis Data Analytics를 사용하면서 Flink를 공부하는 중에 많이 쓰이는 변환연산을 정리해 두려고 한다. Flink를 공부하면서 “아파치 플링크로 하는 데이터 처리, 파비안 휴스케, 바실리키 칼라브리, 에이콘” 책을 참고하였고, 이 글에 작성되는 내용의 일부는 책의 내용을 가져 왔다. 변환 연산? 변환 연산은 말 그대로 DataStream을 입력받아서 여러 종류의 변환을 거친 뒤 입력 값과 다른형태의 출력값을 내보낸다. DataStream API 작성의 본질은 애플리케이션 로직을 구현하는 데이터플로우를 생성 할 때 여러 변환 연산을 조합하는 것 이라 할 수 있다. 거의 모든 변환 연산은 사용자 정의 함수를 바탕으로 하며, 변환 복적의 함수 인터페이스를 클래스로 구현.. 2023. 6. 22. Airflow를 알아보자 얼마전에 프로그래머스에서 하는 "실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python" 강의를 수강 완료 했다. 강의를 통해서 그동안 호기심이 많았던 Airflow를 처음 사용해봤다. 앞으로 계속해서 배운 내용을 토대로 Airflow를 더 깊고 다양하게 사용해 볼 예정이나, 그 전에 Airflow에 대해서 좀 더 알아보고 정리해 놓고 싶다는 생각이 들어 이 글을 작성한다. Apache Airflow 란?? Airflow는 Python 코드를 사용하여 배치 워크플로우를 개발, 예약 및 모니터링 할 수 있는 오픈소스 플랫폼이다. Airflow를 이용하여 ETL작업을 자동화 할 수 있고, 웹 UI를 이용해서 워크플로우의 상태를 관리 할 수 있다. 워크플로우에서는 각 작업간의 종속성을 정의 .. 2023. 5. 14. 이전 1 2 3 4 5 6 다음