일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 백준
- 코딩테스트
- databricks
- python
- sql
- ElasticSearch
- AWS
- 깃허브
- DB
- Kafka
- subnet
- airflow
- Elk
- Autoloader
- 데이터브릭스
- openai
- associate
- 파이썬
- prompt
- 엘라스틱서치
- json
- 데이터검증
- Cloud
- EC2
- spark
- ELK스택
- 인프런
- VPC
- LLM
- 프로그래머스
- Today
- Total
목록데이터브릭스 (6)
데이터 히스토리북 (Data History Book)
Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..
워크스페이스 정리를 위해 작업공간을 dbc로 내려받으려 했으나(ui환경에서) 10메가 초과로 내려받을 수 없게 됐다. 확인해보니, 노트북 환경에서는 spark.display() 나 그래프 or 데이터들이 같이 보여지기 때문에 https의 용량을 많이 잡아먹는 것 같다. 따라서 cli 환경으로 데이터브릭스 디렉터리를 로컬로 받는 것을 택했다. databricks workspace export_dir --help Databricks documentation docs.databricks.com 브릭스 공식문서를 보니, cli 환경에서 아래의 디렉토리를 주면 로컬로 다운받을 수 있는 것을 확인했다. databricks workspace export_dir --overwrite /Users/someone@exam..
Private VpcPrivate vpc는 흔히 고객 관리형 VPC라고 할 수 있으며 오늘은 고객의 VPC에서 Databricks 작업 영역을 만들어 볼것이다.https://docs.databricks.com/en/administration-guide/cloud-configurations/aws/customer-managed-vpc.html Databricks documentation docs.databricks.com 기본적으로 데이터브릭스는 클라우드 위에서 존재하기 때문에, 클러스터 생성과 스토리지 또한 클라우드 위에존재한다는 것을 알아야 한다.우선, 데이터브릭스 작업영역을 만들기 위해서 3가지 차례로 진행하면 되는데,1. 자격증명구성2. 저장소 구성3. 네트워크 구성이다.1. 자격 증명 구성 iam..