일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- EC2
- openai
- Autoloader
- VPC
- ELK스택
- 인프런
- json
- 데이터브릭스
- 데이터검증
- LLM
- prompt
- python
- subnet
- sql
- ElasticSearch
- 백준
- 깃허브
- Elk
- 엘라스틱서치
- Kafka
- spark
- AWS
- 파이썬
- DB
- associate
- databricks
- Cloud
- 코딩테스트
- airflow
- 프로그래머스
- Today
- Total
목록Autoloader (2)
데이터 히스토리북 (Data History Book)
스키마 정의 일단 정적인 스키마를 적용하려면 스키마부터 정의하고 진행해야 한다 또한 작은 파일들을 최적화하기 위해서 spark.conf.set을 적용한다 from pyspark.sql.functions import * from pyspark.sql.types import * spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite", "true") spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.autoCompact", "true") spark.conf.set("spark.databricks.delta.preview.enabled..
데이터의 변경된 내용을 자동으로 식별하기 위해서 Change Data Capture(CDC)의 기술을 접목할 것이다. 데이터 브릭스로 CDC를 진행할때는 어떤 방식으로 이루어지는 알아보자. 사용한 서비스 : AWS의 DMS, AWS RDS(MYSQL),Databricks(Spark) 1. RDS 생성 DB는 Mysql을 생성해서 사용했다. 비용효율적으로 EC2에 mysql을 설치해서 사용해도 되지만, RDS를 사용해본 적이 없기에, CDC를 통해서 겸사겸사 진행했다. 또한 프리티어를 사용해서 Amazon RDS 단일 AZ(개발자용) db.t2 micro 인스턴스는 750시간 무료로 사용할 수 있다고 하니 클라우드 환경에서 DB를 사용할때 생성하면 좋을 듯 싶다. 주의 : 버스터블 클래스인 t로 선택을 ..