일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- LLM
- DB
- 깃허브
- databricks
- EC2
- spark
- 코딩테스트
- 엘라스틱서치
- Elk
- VPC
- 데이터검증
- airflow
- 프로그래머스
- subnet
- AWS
- 인프런
- ELK스택
- json
- ElasticSearch
- 백준
- python
- openai
- prompt
- 파이썬
- associate
- Autoloader
- Kafka
- Cloud
- sql
- 데이터브릭스
- Today
- Total
목록databricks (6)
데이터 히스토리북 (Data History Book)
Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..
스키마 정의 일단 정적인 스키마를 적용하려면 스키마부터 정의하고 진행해야 한다 또한 작은 파일들을 최적화하기 위해서 spark.conf.set을 적용한다 from pyspark.sql.functions import * from pyspark.sql.types import * spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite", "true") spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.autoCompact", "true") spark.conf.set("spark.databricks.delta.preview.enabled..
Private VpcPrivate vpc는 흔히 고객 관리형 VPC라고 할 수 있으며 오늘은 고객의 VPC에서 Databricks 작업 영역을 만들어 볼것이다.https://docs.databricks.com/en/administration-guide/cloud-configurations/aws/customer-managed-vpc.html Databricks documentation docs.databricks.com 기본적으로 데이터브릭스는 클라우드 위에서 존재하기 때문에, 클러스터 생성과 스토리지 또한 클라우드 위에존재한다는 것을 알아야 한다.우선, 데이터브릭스 작업영역을 만들기 위해서 3가지 차례로 진행하면 되는데,1. 자격증명구성2. 저장소 구성3. 네트워크 구성이다.1. 자격 증명 구성 iam..