데이터 엔지니어링/Spark
Spark (스파크) vs MapReduce (맵리듀스) 차이
견고한 데이터 엔지니어링 책을 읽으면서 스파크와 맵리듀스가 대규모 데이터를 효율적으로 처리하기 위해 만들어졌다고 하는데, 둘의 차이를 명확히 알기 위해 기록해두는 용으로 블로그를 작성한다.공통점으로는,1. 분산 처리 기반- Spark, MapReduce는 대규모 데이터를 여러대의 컴퓨터(노드)로 나눠서 동시에 처리한다.- 클러스터 환경에서 작동하며, 데이터를 효율적으로 나누고 병렬 작업을 수행한다. 2. 내결함성을 지니다- 노드 하나가 고장난다 하더라도, 데이터와 작업을 다른 노드에서 수행할 수 있기에 복구할 수 있는 구조를 가지고 있다.- MapReduce는 HDFS(Hadoop Distributed File System)를 기반으로, Spark는 RDD(Redsilient Distributed D..
2024. 12. 22. 17:22