일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 프로그래머스
- python
- 파이썬
- DB
- 코딩테스트
- 깃허브
- Elk
- 데이터브릭스
- 데이터검증
- Kafka
- LLM
- subnet
- json
- ElasticSearch
- sql
- 백준
- openai
- spark
- prompt
- Autoloader
- EC2
- AWS
- 인프런
- Cloud
- databricks
- VPC
- associate
- 엘라스틱서치
- ELK스택
- airflow
- Today
- Total
목록데이터 엔지니어링 (30)
데이터 히스토리북 (Data History Book)
델타 라이브 테이블 (Delta Live Table)오늘은 데이터 파이프라인을 간편하게 실행 할 수 있는 델타 라이브 테이블을 설명하고자 한다.DLT란 델타 라이브 테이블이라고 말하며, 스트리밍 및 배치 ETL 방식을 처리할 수 있도록 지원하며 데이터 브릭스에서 제공하는 기능으로, 데이터 파이프라인을 개발 할 수 있는 자동화 서비스이다. DLT로 처리 시 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리 등을 자동으로 처리할 수 있다.데이터브릭스에서 델타 라이브 테이블을 사용하려면 dlt 라이브러리를 사용하면 되며, 시작하기 위해서는 델타 라이브 테이블의 파이프라인을 우선 생성해주어야 한다.- 파이프라인 실행 모드는 trigger와 continuous로 구분된다.> trigge..
Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..
Source / Target 으로 분리해서 구축서로 다른 계정을 가진 S3끼리 CLI로 쉽게 개체를 복사하는 방법을 소개하려고 한다.우선, Target에 있는 계정에서 정책을 생성한다.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject" ], "Resource": [ "arn:aws:", "arn:aws:/*" ] }, ..