[Spark/Databricks] Change of Capture / Auto loader
·
데이터 엔지니어링
스키마 정의 일단 정적인 스키마를 적용하려면 스키마부터 정의하고 진행해야 한다 또한 작은 파일들을 최적화하기 위해서 spark.conf.set을 적용한다 from pyspark.sql.functions import * from pyspark.sql.types import * spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite", "true") spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.autoCompact", "true") spark.conf.set("spark.databricks.delta.preview.enabled..
[AWS] RDS(MYSQL)에서 DMS를 사용하여 Databricks로 Migration하기
·
데이터 엔지니어링/AWS
데이터의 변경된 내용을 자동으로 식별하기 위해서 Change Data Capture(CDC)의 기술을 접목할 것이다. 데이터 브릭스로 CDC를 진행할때는 어떤 방식으로 이루어지는 알아보자. 사용한 서비스 : AWS의 DMS, AWS RDS(MYSQL),Databricks(Spark) 1. RDS 생성 DB는 Mysql을 생성해서 사용했다. 비용효율적으로 EC2에 mysql을 설치해서 사용해도 되지만, RDS를 사용해본 적이 없기에, CDC를 통해서 겸사겸사 진행했다. 또한 프리티어를 사용해서 Amazon RDS 단일 AZ(개발자용) db.t2 micro 인스턴스는 750시간 무료로 사용할 수 있다고 하니 클라우드 환경에서 DB를 사용할때 생성하면 좋을 듯 싶다. 주의 : 버스터블 클래스인 t로 선택을 ..