'데이터 엔지니어링' 카테고리의 글 목록

[Spark] null과의 조인 이슈 및 fillna의 문자열 타입 제약

Spark를 사용하다 보면 null과 관련된 이슈는 피할 수 없다.특히 join이나 fillna 작업 중에는 생각보다 복잡하고 직관적이지 않은 동작을 마주하게 된다.이번 글에서는 Spark DataFrame에서 null이 join에 미치는 영향과 fillna의 문자열 타입 제약에 대해 정리한다.1. null은 조인 대상이 아니다 Spark에서 두 DataFrame을 join할 때, 조인 키가 null인 경우는 절대 매칭되지 않는다.이는 SQL의 기본적인 조인 규칙과 동일하지만, Spark에서는 이 특성이 실무에서 꽤 자주 문제를 일으키는 것 같다. 이에 대한 사실을 몰랐을 때, 똑같은 데이터인데도 불구하고 실행할때마다 계속해서 중복이 일어나는 경우가 있었다."left_anti"란 A 테이블에서 B테이블이..

2025. 5. 16. 18:47

데이터 엔지니어링/AWS

[Opensearch] Index setting 중 Keyword vs Text의 차이

이번 글에서는 Elasticsearch에서 자주 사용되는 keyword 타입과 text 타입에 대해 설명드리겠습니다. 1. keyword 타입먼저 keyword 타입은 정확한 값 검색에 적합합니다.예를 들어, 이메일 주소나 고유 ID, 국가 코드와 같은 것들이 이에 해당합니다.keyword 타입은 텍스트를 그대로 저장하고 분석하지 않기 때문에, 입력한 값 그대로 저장됩니다.즉, 대소문자 구분도 하고 공백도 그대로 유지됩니다. 또한 필터링,집계, 정렬인 Aggregation에 최적화 되어 있습니다. 예시 매핑:{ "properties": { "email": { "type": "keyword" } }} 장점: • 정확하게 문자 일치 검색이 가능하고, 집계나 필터링 속도가 빠릅니다. •..

2025. 3. 27. 19:48

데이터 엔지니어링/Python

[Python] return vs yield 동작 방식에 대해 바로 알기

return과 yield는 Python에서 함수의 동작 방식에 큰 차이를 만드는 두 키워드입니다.이 두 키워드의 차이점과 언제 사용하는지에 대한 이해를 하기 위하여 아래와 같은 구조로 설명할 수 있습니다. Python에서 return과 yield는 함수의 실행을 제어하는데 사용되지만, 그 방식과 결과는 크게 다릅니다.return과 yield의 차이점을 살펴보겠습니다. 1. return의 동작 방식 • 정의: return은 함수에서 값을 반환하고, 함수의 실행을 종료하는 키워드입니다.함수가 return을 만나면, 그 즉시 실행이 종료되고 값이 호출자에게 반환됩니다. • 용도: 보통 함수가 어떤 결과값을 계산하고 그 값을 반환할 때 사용됩니다. 그 값은 단순히 반환된 결과로만 활용됩니다. • 예시: def ..

2025. 2. 28. 11:28

데이터 엔지니어링/Spark

Spark (스파크) vs MapReduce (맵리듀스) 차이

견고한 데이터 엔지니어링 책을 읽으면서 스파크와 맵리듀스가 대규모 데이터를 효율적으로 처리하기 위해 만들어졌다고 하는데, 둘의 차이를 명확히 알기 위해 기록해두는 용으로 블로그를 작성한다.공통점으로는,1. 분산 처리 기반- Spark, MapReduce는 대규모 데이터를 여러대의 컴퓨터(노드)로 나눠서 동시에 처리한다.- 클러스터 환경에서 작동하며, 데이터를 효율적으로 나누고 병렬 작업을 수행한다. 2. 내결함성을 지니다- 노드 하나가 고장난다 하더라도, 데이터와 작업을 다른 노드에서 수행할 수 있기에 복구할 수 있는 구조를 가지고 있다.- MapReduce는 HDFS(Hadoop Distributed File System)를 기반으로, Spark는 RDD(Redsilient Distributed D..

2024. 12. 22. 17:22

데이터 엔지니어링/Python

Iterator(이터레이터)와 list(리스트)의 동작 차이

코딩테스트를 준비하다가 역순을 사용하는 부분에서 객체의 메모리 주소를 보여주는 부분을 목격했다.이 메모리 주소는 이터레이터의 객체 주소를 보여주는데, 이터레이터와 리스트의 차이가 무엇인지 찾아보다가 기록을 해둔다.두 개념은 비슷해 보이지만, 데이터를 처리하는 방식과 사용 방법에서 큰 차이가 있다.이터레이터는 마치 과자 자판기와 같다.자판기에서는 버튼을 한 번 누를 때마다 과자가 하나씩 나온다.하지만 모든 과자를 다 꺼내고 나면 더 이상 과자를 받을 수 없다.이처럼 이터레이터의 특징을 볼 수 있는데, 이터레이터는 한번만 사용할 수 있고, 메모리에 모든 데이터를 저장하지 않고 필요할때만 생성한다는 점, 그리고 다시 사용하려면 새로 생성해야한다는 점이다.l = [1, 2, 3, 4, 5]iter_obj = i..

2024. 11. 30. 18:53

데이터 엔지니어링/Databricks

Hive Metastore vs Unity Catalog 차이

데이터브릭스 플랫폼에서 개발하면서 데이터를 담고있는 공간의 차이가 궁금해졌다.엔지니어를 하다보면 데이터브릭스에서 유니티 카탈로그(Unity Catalog)라는 단어가 계속 나오는데, 유니티 카탈로그 외의 하이브메타스토어는 유니티카탈로그가 아닌건가?에 대해서 의문이 들었다. 일단, Unity Catalog와 Hive Metastore 둘다 메타데이터 등 데이터를 관리하는 데 사용되는 도구이지만 차이점은 명확히 있다.Unity Catalog는 Databricks에서 제공하는 데이터를 관리하는 기능으로, 클라우드에서 데이터를 일관성 있게 관리하고 접근을 세밀하게 제어할 수 있도록 설계되었다. AWS, Azure 등의 다양한 클라우드 환경을 지원하므로 멀티 클라우드에서 데이터를 활용하려는 경우 유용하다.Hiv..

2024. 11. 5. 21:31

데이터 엔지니어링/Spark

검증 Verification 시간 단축 이슈(Min,Max,Sum)

데이터 이관했을 당시 Source Table과 Target Table에 대한 데이터 검증을 경험한 바가 있다.데이터 엔지니어라 함은 데이터 검증을 피할 수가 없는데, 보통은 count로 이를 확인하고 더 나아가서 Min, Max, Sum을 추출하여 데이터 검증을 진행한다.컬럼의 수가 많을 수록, 또한 데이터가 클 수록 이에 대한 검증 시간은 비례하다.기존에는 검증에 대한 로직이 없었으며 작업을 수행해야하는 시간이 다소 짧았었다. 빠르게 검증 로직에 대한 템플릿을 만들었고 데이터가 큰 테이블들은 시간이 오래 걸렸음에도 흐린눈 하며 검증 코드 고도화를 미루다가 하나의 테이블이 생각보다(...) 너~무 오래걸리는 이슈로 인해 로직에 대한 고도화를 진행해야만 했다.(고도화 작업을 진행할때 기존 코드를 보다가 ..

2024. 7. 14. 20:28

데이터 엔지니어링/Databricks

[Databricks] Delta Live Table 이란?

델타 라이브 테이블 (Delta Live Table)오늘은 데이터 파이프라인을 간편하게 실행 할 수 있는 델타 라이브 테이블을 설명하고자 한다.DLT란 델타 라이브 테이블이라고 말하며, 스트리밍 및 배치 ETL 방식을 처리할 수 있도록 지원하며 데이터 브릭스에서 제공하는 기능으로, 데이터 파이프라인을 개발 할 수 있는 자동화 서비스이다. DLT로 처리 시 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리 등을 자동으로 처리할 수 있다.데이터브릭스에서 델타 라이브 테이블을 사용하려면 dlt 라이브러리를 사용하면 되며, 시작하기 위해서는 델타 라이브 테이블의 파이프라인을 우선 생성해주어야 한다.- 파이프라인 실행 모드는 trigger와 continuous로 구분된다.> trigge..

2024. 6. 2. 18:41

데이터 엔지니어링/Databricks

[Databricks] dbutils.widget을 사용하여 데이터 검증 수행하기

Databricks를 사용하여 테이블 컬럼 별로 검증 수행하기데이터 엔지니어라 함은 데이터 마이그레이션도 중요하지만, 정합성 검증 또한 중요하다.이번 블로그에 작성할 내용은 데이터브릭스에서 정합성 검증을 진행했던 경험에 대해서 작성해보려고 한다.데이터브릭스는 데이터 분석가와 엔지니어, 데이터 싸이언티스트들이 머신러닝 작업이나 ETL작업을 쉽게 공간을 공유해서 사용할 수 있는 데이터 플랫폼이다. 파라미터 변수들을 동적으로 받아와서 진행할 수 있는데, Databricks에서는 dbutils.widgets기능을 제공한다.사용자가 파라미터에 입력을 해서 데이터베이스와 테이블을 지정하면, 해당 테이블을 자동으로 리프레쉬되어 테이블을 읽는다.따라서 코드를 전부 작성한 뒤, 위젯에 파라미터를 넣기만 하면 각 테이블이..

2024. 5. 27. 21:00

데이터 엔지니어링/AWS

[AWS] S3 다른 계정간의 Bucket 개체 복사하기

Source / Target 으로 분리해서 구축서로 다른 계정을 가진 S3끼리 CLI로 쉽게 개체를 복사하는 방법을 소개하려고 한다.우선, Target에 있는 계정에서 정책을 생성한다.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject" ], "Resource": [ "arn:aws:", "arn:aws:/*" ] }, ..

2024. 4. 29. 21:47

데이터 엔지니어링/AWS

[AWS] Sagemaker Internet access / VPC access 차이

SagemakerAWS의 머신러닝 추론 서비스인 sagemaker를 사용할때면 항상 vpc와 subnet은 고려하지 않고 default vpc에서 사용했다.그러나 이번엔 vpc를 만들고 opensearch를 해당 vpc의 private에 두었기 때문에 sagemaker 또한 해당 vpc에 구축해야 했다.만든 후 sagemaker를 열었더니 커널이 pending 되지 않고 노트북도 열리지 않았다.이후 퍼블릭 액세스와 vpc 액세스의 차이를 알게 됐고 지금 생각해보면 당연한 얘긴데, 일 하다보면 항상 숲이 아닌 나무를 보게 되는 것 같다 ..VPC Access vs Internet Access VPC 전용 vpc를 만들면서 vpc내의 public한 서브넷에 sagemaker를 두고 private subne..

2024. 4. 28. 17:09

데이터 엔지니어링/Python

PPT to PDF Convert Python code

이슈 발생ppt, pdf 문서 전처리 하던 와중에 ppt 슬라이드 전체를 img하여 전처리 하려고 했으나,pymupdf 라이브러리 내에서 get_pixamap의 기능은 ppt 슬라이드를 이미지화하는 것이 아닌, 뭔가 이미지를 찾아그 이미지를 추출해서 진행하는 코드같았다.슬라이드 자체를 이미지화해야 했기 때문에 코드 수정이 필요했다.https://pymupdf.readthedocs.io/en/latest/recipes-images.html Images - PyMuPDF 1.24.1 documentationPrevious Textpymupdf.readthedocs.io 배치성으로 파이프라인을 구축해야 하다보니, 로컬에서 하나하나 작업할 수 없었고, ppt를 슬라이드화 하려면 pdf로 만들어야했다.구글링해보니..

2024. 4. 16. 16:06

데이터 엔지니어링/AWS

[AWS] TroubleShooting Bedrock InvokeModel Error

Antropic Sonnet / Haiqu의 Model issueModelErrorException: An error occurred (ModelErrorException) when calling the InvokeModel operation: The system encountered an unexpected error during processing. Try your request again.Trouble shootingAntropic의 Sonnet과 haiqu를 사용할 때 간헐적으로 모델 이슈 에러가 발생하였다.당시 구글링을 시도할때 Invoke-endpoint의 에러들에 대한 해결방법만 존재했고 ModelErrorException에 관한 내용은 없었다.따라서 저 에러가 난 경우, Try your r..

2024. 4. 12. 15:41

데이터 엔지니어링/AWS

[AWS] Can't update non dynamic settings [[index.analysis]] for open indices

Intro 오픈서치 인덱스 세팅 중 파라미터 값을 변경해야할때, 아래와 같은 오류 메시지가 띄고, 변경이 되질 않는다. [illegal_argument_exception] Can't update non dynamic settings [[index.analysis.analyzer.my_filter.filter]] for open indices [[my-index/[...]]] 이 때는 해당 인덱스를 Close한 후, 파라미터를 다시 변경하고, Open을 진행한다 Console Post POST indexName/_close PUT indexName/_settings "settings": { "index.codec": "best_compression" } POST indexName/_open index cl..

2024. 2. 27. 14:19

데이터 엔지니어링/Databricks

[Databirkcs] Cli로 Workspace to local file system으로 file 옮기기

워크스페이스 정리를 위해 작업공간을 dbc로 내려받으려 했으나(ui환경에서) 10메가 초과로 내려받을 수 없게 됐다. 확인해보니, 노트북 환경에서는 spark.display() 나 그래프 or 데이터들이 같이 보여지기 때문에 https의 용량을 많이 잡아먹는 것 같다. 따라서 cli 환경으로 데이터브릭스 디렉터리를 로컬로 받는 것을 택했다. databricks workspace export_dir --help Databricks documentation docs.databricks.com 브릭스 공식문서를 보니, cli 환경에서 아래의 디렉토리를 주면 로컬로 다운받을 수 있는 것을 확인했다. databricks workspace export_dir --overwrite /Users/someone@exam..

2024. 1. 15. 15:17

[Spark] null과의 조인 이슈 및 fillna의 문자열 타입 제약

[Opensearch] Index setting 중 Keyword vs Text의 차이

[Python] return vs yield 동작 방식에 대해 바로 알기

Spark (스파크) vs MapReduce (맵리듀스) 차이

Iterator(이터레이터)와 list(리스트)의 동작 차이

Hive Metastore vs Unity Catalog 차이

검증 Verification 시간 단축 이슈(Min,Max,Sum)

[Databricks] Delta Live Table 이란?

[Databricks] dbutils.widget을 사용하여 데이터 검증 수행하기

[AWS] S3 다른 계정간의 Bucket 개체 복사하기

[AWS] Sagemaker Internet access / VPC access 차이

PPT to PDF Convert Python code

[AWS] TroubleShooting Bedrock InvokeModel Error

[AWS] Can't update non dynamic settings [[index.analysis]] for open indices

[Databirkcs] Cli로 Workspace to local file system으로 file 옮기기

전체 카테고리

블로그 인기글

전체 방문자

티스토리툴바