[Spark] 검증 Verification 시간 단축 이슈(Min,Max,Sum)
·
데이터 엔지니어링/Spark
데이터 이관했을 당시 Source Table과 Target Table에 대한 데이터 검증을 경험한 바가 있다.데이터 엔지니어라 함은 데이터 검증을 피할 수가 없는데, 보통은 count로 이를 확인하고 더 나아가서 Min, Max, Sum을 추출하여 데이터 검증을 진행한다.컬럼의 수가 많을 수록, 또한 데이터가 클 수록 이에 대한 검증 시간은 비례하다.기존에는 검증에 대한 로직이 없었으며 작업을 수행해야하는 시간이 다소 짧았었다. 빠르게 검증 로직에 대한 템플릿을 만들었고 데이터가 큰 테이블들은 시간이 오래 걸렸음에도 흐린눈 하며 검증 코드 고도화를 미루다가 하나의 테이블이 생각보다(...) 너~무 오래걸리는 이슈로 인해 로직에 대한 고도화를 진행해야만 했다.(고도화 작업을 진행할때 기존 코드를 보다가 ..
[AWS] EC2(ubuntu)에서 postgreSQL 설치하기
·
데이터 엔지니어링/AWS
다음 프로젝트에서 쓰이고 있는 DB가 PostgreSQL이라고 해서 EC2 우분투에 postgresql을 설치했던 경험을 정리하였습니다. 개발 환경 - Ubuntu 22.04.2 LTS ver - Postgresql 14 ver 설치 $ sudo apt-get update $ sudo apt-get install postgresql postgresql-contrib # 패키지 등록 sudo sh -c 'echo "deb http://apt.postgresql.org/pub/repos/apt $(lsb_release -cs)-pgdg main" > /etc/apt/sources.list. d/pgdg.list' # GPG Key add wget --quiet -O - https://www.postgresq..
[SQL] DML/ DDL (JOIN, SUBQUERY ETC)
·
알쓸신잡
1. SQL 순서 From/join where groupby having select order by 2. Data lake vs Data warehouse vs Data mart Data lake : 정형, 비정형, 반정형 모든 raw data 집합 Data warehouse : Data를 저장 전 스키마가 적용되며, 특정 목적에 맞게 정리하고 구성된 데이터의 집합 Data mart : Lob 특성에 맞게 모아놓은 Data 집합 3. DML / DDL DML : 데이터를 추가 조작하는데에 쓰이는 언어 INSERT, DELETE, UPDATE, SELECT DDL : 테이블을 생성하거나 변경, 삭제할 때 쓰이는 언어 CREATE, ALTER, REPLACE, DROP Create table CREATE ..