본문 바로가기

S36

AWS Wrangler를 사용해서 외부데이터를 Redshift에 적재 AWS Wrangler?AWS Wrangler는 AWS 서비스와 통합하여 데이터를 처리하고 관리하는 데 유용한 Python 라이브러리입니다. 특히, AWS 데이터 서비스(예: Amazon S3, Amazon Athena, Amazon Redshift, Amazon RDS 등)와 함께 사용할 때 매우 유용합니다. AWS Wrangler는 Pandas와 같은 데이터 처리 라이브러리와의 통합을 제공하여, 대규모 데이터 세트에 대한 작업을 간편하게 수행할 수 있습니다.Connection 생성Wrangler를 사용해서 레드시프트에 연결을 생성하는 방법으로는 glue와 secret manager 중 한가지를 선택해서 연결해야 한다.Glue connectionAWS Glue Console → Connections →.. 2024. 8. 25.
Amazon S3 스토리지 클래스 정리 S3는 요구사항에 따라 선택할 수 있는 다양한 스토리지 클래스를 제공한다. 일반적으로 사용되는 스탠다드 외에도 다른 스토리지 클래스에 대하여 이해하고 있으면, 더 비용효율적이고 요구에 맞는 설계를 할 수 있다.💡 Amazon S3? Amazon Simple Storage Service(Amazon S3)는 클라우드 기반의 객체 스토리지 서비스로, 여러 종류의 스토리지 클래스를 제공하여 데이터의 보존 기간, 가용성, 내구성 및 비용에 대한 요구 사항을 충족시킬 수 있다. 모든 규모와 분야에서 S3를 사용하여 데이터 레이크, 웹사이트, 모바일 어플리케이션, 백업 및 복원, 아카이브, IoT 디바이스, 빅데이터 분석 등 다양한 사용 사례에서 원하는 양의 데이터를 저장하고 보호 할 수 있다. Amazon S3 .. 2023. 5. 21.
S3의 불필요한 객체들을 정리하도록 Lambda 작성 이전에 Lambda함수를 이용해서 클라우드 워치의 로그를 S3에 백업하도록 구성하였다. Cloudwatch의 로그 S3 백업을 자동화 하기(w/ AWS Lambda) 이때 AWS에서 제공하는 boto3 메소드를 이용했는데, 이렇게 이용하면 불필요한 파일과 디렉토리가 생성된다. 위에 첨부된 사진과 같이 aws-logs-write-test 파일이 모든 디렉토리에 생성되고, taskId명으로 생긴 폴더 내부에 또 새로운 폴더가 생성되고 백업된 로그 파일이 생성된다. 또한, 테스트파일은 해당일자에 로그가 없어서 디렉토리 생성이 필요가 없을때에도 생성된다. 따라서, 이렇게 불필요한 파일과 디렉토리를 정리하는 코드를 추가하였다. import os import datetime import time import bot.. 2023. 3. 13.
Fluentd -> Kinesis Data Stream -> S3 1. Kinesis data stream 생성 aws kinesis create-stream --stream-name test-stream 생성 확인 → 상태가 Active이면 사용 가능 aws kinesis describe-stream-summary --stream-name test-stream 스트림 리스트 확인 aws kinesis list-streams 2. fluentd에서 output에 kinesis 설정 → fluentd container에 aws credentials가 환경변수로서 등록되어 있어, 여기서 따로 추가하지 않음 @type kinesis_streams region ap-northeast-2 stream_name test-stream 3. Kinesis Data Streams 에서.. 2023. 2. 12.