본문 바로가기

glue catalog2

DuckDB를 사용해서 Iceberg 테이블에 쿼리 실행하기 Iceberg테이블을 Glue Catalog로 관리하면서 사용하고 있는데, 해당 테이블에 쿼리를 실행하고자 해서 방법을 찾아봤다. 테이블의 용량이 크지 않아 스파크를 사용하고 있지 않다보니, Iceberg 테이블 쿼리에 많이 사용되는 Spark SQL 사용이 어려웠다. 이에 대한 대안으로 DuckDB를 사용하는 방법을 발견해서 적용해보았다.DuckDB를 사용해서 Iceberg 테이블에 쿼리를 하는 방안으로 2가지를 찾았다.DuckDB 라이브러리에서 Iceberg Extension을 설치해서 바로 테이블에 쿼리 실행PyIceberg로 테이블을 먼저 로드해서 이를 DuckDB에 연결 후 쿼리 실행두가지 방법 모두 시도해 본 결과 2번 방법을 채택해서 사용하기로 했다. 각 방법의 상세 내용을 아래에 기록하고자.. 2024. 9. 15.
pyiceberg와 Glue Catalog를 이용한 Apache Iceberg 사용 필요 라이브러리 설치pip 업그레이드pip install --upgrade pippyiceberg와 필요 의존성 설치 - 아래 예제에서는 catalog로 glue를, 저장소로 s3를 사용할 예정이므로 glue, s3fs 를 설치pip install "pyiceberg[glue,s3fs]"카탈로그 설정pyiceberg 사용사례가 검색했을때 많지 않았고, 그 중에서 GlueCatalog를 사용해서 카탈로그 관리를 하는 예시를 찾기가 어려웠다.다른 카탈로그나 조금 다른 경우의 사용사례를 찾아봤을때 .pyiceber.yaml 파일을 이용하는 방식을 보고 적용해 보았는데, 내 경우에는 잘 작동하지 않는 듯 하다.그래서 여러번의 시도를 한 끝에 아래의 방법으로 잘 동작하는 것을 알아냈다.from pyiceberg... 2024. 6. 30.