'데이터 엔지니어링/Spark' 카테고리의 글 목록

Spark (스파크) vs MapReduce (맵리듀스) 차이

견고한 데이터 엔지니어링 책을 읽으면서 스파크와 맵리듀스가 대규모 데이터를 효율적으로 처리하기 위해 만들어졌다고 하는데, 둘의 차이를 명확히 알기 위해 기록해두는 용으로 블로그를 작성한다.공통점으로는,1. 분산 처리 기반- Spark, MapReduce는 대규모 데이터를 여러대의 컴퓨터(노드)로 나눠서 동시에 처리한다.- 클러스터 환경에서 작동하며, 데이터를 효율적으로 나누고 병렬 작업을 수행한다. 2. 내결함성을 지니다- 노드 하나가 고장난다 하더라도, 데이터와 작업을 다른 노드에서 수행할 수 있기에 복구할 수 있는 구조를 가지고 있다.- MapReduce는 HDFS(Hadoop Distributed File System)를 기반으로, Spark는 RDD(Redsilient Distributed D..

2024. 12. 22. 17:22

데이터 엔지니어링/Spark

검증 Verification 시간 단축 이슈(Min,Max,Sum)

데이터 이관했을 당시 Source Table과 Target Table에 대한 데이터 검증을 경험한 바가 있다.데이터 엔지니어라 함은 데이터 검증을 피할 수가 없는데, 보통은 count로 이를 확인하고 더 나아가서 Min, Max, Sum을 추출하여 데이터 검증을 진행한다.컬럼의 수가 많을 수록, 또한 데이터가 클 수록 이에 대한 검증 시간은 비례하다.기존에는 검증에 대한 로직이 없었으며 작업을 수행해야하는 시간이 다소 짧았었다. 빠르게 검증 로직에 대한 템플릿을 만들었고 데이터가 큰 테이블들은 시간이 오래 걸렸음에도 흐린눈 하며 검증 코드 고도화를 미루다가 하나의 테이블이 생각보다(...) 너~무 오래걸리는 이슈로 인해 로직에 대한 고도화를 진행해야만 했다.(고도화 작업을 진행할때 기존 코드를 보다가 ..

2024. 7. 14. 20:28

데이터 엔지니어링/Spark

[Spark] Json 파싱하는 법

spark sql을 사용하여 json의 복잡한 유형을 파싱하고 다루는 방법을 알아보자spark sql support module pyspark.sql.fuctionsfrom pyspark.sql.functions import *from pyspark.sql.types import * 중첩된 열에 대해 "." 을 사용해서 가지고 올 때schema 먼저 선언1. using a Structschema = StructType().add("a", StructType().add("main", IntegerType())) 2. using a mapschema = StructType().add("a", MapType(StringType(), IntegerType())) 중첩된 열에 대해 "*" 를 사용해서 b 필드를 ..

2023. 12. 26. 00:40

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Spark (스파크) vs MapReduce (맵리듀스) 차이

검증 Verification 시간 단축 이슈(Min,Max,Sum)

[Spark] Json 파싱하는 법

전체 카테고리

블로그 인기글

전체 방문자

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역