일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터브릭스
- sql
- VPC
- 코딩테스트
- airflow
- 데이터검증
- 엘라스틱서치
- Autoloader
- Kafka
- databricks
- spark
- 프로그래머스
- 백준
- 깃허브
- ElasticSearch
- DB
- subnet
- Elk
- LLM
- ELK스택
- json
- openai
- EC2
- 파이썬
- associate
- prompt
- 인프런
- Cloud
- python
- AWS
- Today
- Total
목록spark (4)
데이터 히스토리북 (Data History Book)
Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..
스키마 정의 일단 정적인 스키마를 적용하려면 스키마부터 정의하고 진행해야 한다 또한 작은 파일들을 최적화하기 위해서 spark.conf.set을 적용한다 from pyspark.sql.functions import * from pyspark.sql.types import * spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite", "true") spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.autoCompact", "true") spark.conf.set("spark.databricks.delta.preview.enabled..
spark sql을 사용하여 json의 복잡한 유형을 파싱하고 다루는 방법을 알아보자 spark sql support module pyspark.sql.fuctions from pyspark.sql.functions import * from pyspark.sql.types import * 중첩된 열에 대해 "." 을 사용해서 가지고 올 때 schema 먼저 선언 1. using a Struct schema = StructType().add("a", StructType().add("main", IntegerType())) 2. using a map schema = StructType().add("a", MapType(StringType(), IntegerType())) 중첩된 열에 대해 "*" 를 사용해서..