이전에 취득했던 Databricks Engineer Associate가 있었지만, 올해 okr에 신규 certificate 취득이 있기 때문에 Databricks Professional 자격증을 취득하는 것은 언젠가 취득해야만 했었던 과정이였다.
영어로 시험을 봐야하기 때문에 결코 쉽지만은 않았지만, 그 과정은 매우 보람찼고 새로운 개념에 대해서 많이 알게 되었다.
이번 글에서는 내가 이 자격증을 준비하면서 겪었던 경험과, 이를 준비하는 사람들에게 도움이 될 수 있는 팁들을 공유하고자 한다.
왜 Databricks Professional 자격증을 선택했는가?
데이터 분석과 엔지니어링의 중요성이 나날이 커지면서 Databricks는 이러한 분야에서 핵심적인 플랫폼으로 자리 잡고 있다. 특히 클라우드 기반에서 손쉽게 데이터 파이프라인을 구축하고 머신러닝 모델을 운영할 수 있는 기능은, 데이터 전문가로서 필수적인 역량을 키울 수 있게 해준다. Databricks Professional 자격증은 나의 실력을 공식적으로 검증받는 기회였고, 현업에서의 전문성을 더 강화시킬 수 있는 좋은 방법이라 생각했다.
공부 과정
곧 들어가는 데이터브릭스 프로젝트가 있었기 때문에 공부해야 하는 시간도 마땅치 않았다. 그러나 프로젝트 들어가기전에 따는 게 목표였기 때문에 Databricks의 주요 기능뿐 아니라 Spark와 데이터 엔지니어링, 머신러닝에 대해 공부를 했다.
Associate를 이미 취득했기 때문에 Databricks의 기본 사용법에 대해선 어느정도 알고 있었다. 대신 Spark 구조를 이해하는 데 시간을 많이 썼다. 앞으로 Spark를 공부해야 했기 때문에 Cluster(Computing) Log에 대해서 신경을 좀 썼었던 것 같다.
시험문제에 대해선 examtopics를 이용했다. 여기서 문제가 나오긴 했으나 전체가 다 나오지 않았던 것 같고 유사하게 변형해서 나왔던 것 같다. 시험 보기 전에 이 사이트를 집중해서 보는 것이 좋을 것 같다.
https://www.examtopics.com/exams/databricks/certified-data-engineer-professional/
아래의 내용같은 팁들은 examtopics를 보면서 깨달았던 데이터브릭스 전반적인 내용과 헷갈린 내용을 정리한 내용이다.
Exam 정리
1. 테이블 생성 시 LOCATION이 지정되지 않으면 외부로 마운트를 했든간에 테이블은 관리형(Manage)으로 생성됨
2. 저장된 비밀 키를 for문으로 print하면 키값이 인쇄되므로 주의해야함
3. 작업실행기록 보존은 최대 60일까지 가능하며 html로 결과를 내보낼 수 있음
4. 데이터브릭스는 워크로드에 따라 파일 크기를 조정가능하다.
5. stream-structure join의 각 마이크로배치는 각 마이크로배치에서 가장 최신 버전의 정적 델타 테이블을 사용한다. → 스트림 정적 조인은 정적인 데이터와 실시간 데이터를 합치는 과정을 말한다.
6. 실행시간이 매우 불규칙할때 조정사항은 트리거 간격을 줄이는것 →이를 줄인다면, 자주 트리거되기 때문에 작업 속도가 빨라져 데이터가 뒤쳐지지 않고 대규모로 배치가 도는게 아닌 자주 배치가 도는것이기 때문에 이를 방지할 수 있음
7. 모든 변경 사항을 처음부터 가져오는 알림 옵션 (startingVersion, 0)
8. 리전간 읽기쓰기에 시간 및 비용이 많이 드니 컴퓨팅은 데이터에 있는 리전에 하는 것이 가장 베스트
9. 열 설명, 테이블 설명, 커멘트 모두 확인할 수 있는것은 Descripbe Extended (ex. dev.test)
10. Predicate push-down은 spark에서 성능향상시키는 한가지 기술인데, 필터 조건을 데이터를 읽는 시점으로 밀어넣은 다음 데이터를 더 효율적으로 처리하는 것을 의미하는것임 → query detail에서 physical plan을 읽어서 확인
시험 당일
시험은 상당히 까다로웠다. 영어로 봐야하기 때문에 시간 관리를 잘해야 했고, 문제들은 현업에서 겪을 법한 시나리오에 기반한 것이 많았다. 여기서 중요한 것은 단순 암기보다는 실제 문제 해결 능력을 테스트한다는 느낌이 들었다.
느낀 점
Databricks Professional 자격증을 취득하면서 자존감이 올라갔고 OKR 또한 달성해서 다행이였다.
https://www.databricks.com/learn/certification/data-engineer-professional