'databricks' 태그의 글 목록

Hive Metastore vs Unity Catalog 차이

데이터브릭스 플랫폼에서 개발하면서 데이터를 담고있는 공간의 차이가 궁금해졌다.엔지니어를 하다보면 데이터브릭스에서 유니티 카탈로그(Unity Catalog)라는 단어가 계속 나오는데, 유니티 카탈로그 외의 하이브메타스토어는 유니티카탈로그가 아닌건가?에 대해서 의문이 들었다. 일단, Unity Catalog와 Hive Metastore 둘다 메타데이터 등 데이터를 관리하는 데 사용되는 도구이지만 차이점은 명확히 있다.Unity Catalog는 Databricks에서 제공하는 데이터를 관리하는 기능으로, 클라우드에서 데이터를 일관성 있게 관리하고 접근을 세밀하게 제어할 수 있도록 설계되었다. AWS, Azure 등의 다양한 클라우드 환경을 지원하므로 멀티 클라우드에서 데이터를 활용하려는 경우 유용하다.Hiv..

2024. 11. 5. 21:31

데이터 엔지니어링/Databricks

[Databricks] dbutils.widget을 사용하여 데이터 검증 수행하기

Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..

2024. 5. 27. 21:00

데이터 엔지니어링/Databricks

[Databricks] Change of Capture / Auto loader

스키마 정의일단 정적인 스키마를 적용하려면 스키마부터 정의하고 진행해야 한다또한 작은 파일들을 최적화하기 위해서 spark.conf.set을 적용한다from pyspark.sql.functions import *from pyspark.sql.types import *spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite", "true")spark.conf.set("spark.databricks.delta.properties.defaults.autoOptimize.autoCompact", "true")spark.conf.set("spark.databricks.delta.preview.enabled", "tru..

2023. 12. 30. 18:42

데이터 엔지니어링/Databricks

[Databricks] Private VPC 생성하기 (with AWS Cloud)

Private VpcPrivate vpc는 흔히 고객 관리형 VPC라고 할 수 있으며 오늘은 고객의 VPC에서 Databricks 작업 영역을 만들어 볼것이다.https://docs.databricks.com/en/administration-guide/cloud-configurations/aws/customer-managed-vpc.html Databricks documentation docs.databricks.com 기본적으로 데이터브릭스는 클라우드 위에서 존재하기 때문에, 클러스터 생성과 스토리지 또한 클라우드 위에존재한다는 것을 알아야 한다.우선, 데이터브릭스 작업영역을 만들기 위해서 3가지 차례로 진행하면 되는데,1. 자격증명구성2. 저장소 구성3. 네트워크 구성이다.1. 자격 증명 구성 iam..

2023. 12. 19. 23:40

데이터 엔지니어링/AWS

[AWS] RDS(MYSQL)에서 DMS를 사용하여 Databricks로 Migration하기

데이터의 변경된 내용을 자동으로 식별하기 위해서 Change Data Capture(CDC)의 기술을 접목할 것이다. 데이터 브릭스로 CDC를 진행할때는 어떤 방식으로 이루어지는 알아보자. 사용한 서비스 : AWS의 DMS, AWS RDS(MYSQL),Databricks(Spark) 1. RDS 생성 DB는 Mysql을 생성해서 사용했다. 비용효율적으로 EC2에 mysql을 설치해서 사용해도 되지만, RDS를 사용해본 적이 없기에, CDC를 통해서 겸사겸사 진행했다. 또한 프리티어를 사용해서 Amazon RDS 단일 AZ(개발자용) db.t2 micro 인스턴스는 750시간 무료로 사용할 수 있다고 하니 클라우드 환경에서 DB를 사용할때 생성하면 좋을 듯 싶다. 주의 : 버스터블 클래스인 t로 선택을 ..

2023. 12. 4. 09:38

컴퓨터 사이언스 (CS)/Certificate

Databricks Engineer - Associate 합격 및 키워드 정리

IntroSpark 공부를 하면서 업무적으로 기회를 얻으려고 진행한 자격증이였다. 원래 자격증은 한번에 붙는 나였는데 이 자격증은 계속 떨어졌다.팀장님의 계속적인 바우처 도움이 아니였으면 애초에 포기했었을 자격증이였다. 시험과 답이 모두 영어로 나오기 때문에 영어를 못하는 본인으로써는 조금 난해했던 자격증이였다. 역시 본인이 제일 공부해야하는 언어는 영어 일듯 싶다 ^^그래도 계속 도전해보면 언젠가 따겠지 하는 마인드로 밀어붙였더니 고득점으로 합격했다뭐든지 계속 하다보면 안되는 건 없다 계속 떨어져서 눈치는 많이 봤지만 그래도 합격하게 되면 앞선 과정들은 아무것도 아니라고 생각했다 준비기간 ( 약 2달 )이번 자격증은 자격증이 주가 아니였고, 업무를 녹여내게끔 하는 것이 주였다. 따라서 실제로 코딩하면..

2023. 11. 11. 16:54

데이터 엔지니어링/Databricks

[Databricks] jdbc connect

Northwind.mdb를 databricks와 jdbc로 연결 jdbc:ucanaccess는 Microsoft Access 데이터베이스에 jdbc 를 통해 연결하기 위한 URL 스키마 중 하나 ucanaccess.jar , 외 2개 총 4개의 jar 다운로드 후 클러스터 라이브러리에 설치 mdb를 dbfs에 수동 load한다 [mdb는 별도로 user, password 정보 필요없음] import org.apache.spark.sql.jdbc.{JdbcDialect, JdbcDialects} case object MSAccessJdbcDialect extends JdbcDialect { override def canHandle(url: String): Boolean = url.startsWith("jd..

2023. 11. 11. 15:54

Hive Metastore vs Unity Catalog 차이

[Databricks] dbutils.widget을 사용하여 데이터 검증 수행하기

[Databricks] Change of Capture / Auto loader

[Databricks] Private VPC 생성하기 (with AWS Cloud)

[AWS] RDS(MYSQL)에서 DMS를 사용하여 Databricks로 Migration하기

Databricks Engineer - Associate 합격 및 키워드 정리

[Databricks] jdbc connect

전체 카테고리

블로그 인기글

전체 방문자

티스토리툴바