안녕하세요. 위기의 코딩맨 입니다!
오늘은 Spark의 RDD에 대해 알아보도록 하겠습니다.
Spark는 정말 어려운것 같아요..ㅠ
그래도 힘내서 공부해 봅시다!
먼저 RDD보다 Spark에 대해 먼저 알아보고 싶으시면!
[ RDD ]
RDD를 풀어서 먼저 해석하면
Resilient - 변하지 않는, 회복력 있는
Distributed - 분산, 분배
Dataset - 데이터, 정보
단순하게 분산되어 존재하고 있는 데이터 요소들의 모임으로 설명할 수 있습니다.
RDD 또는 탄력 분산 데이터셋 으로 불리기도 한다고 합니다.
Spark에서 작업은 새로운 RDD를 생성하거나 , 변형 (input data는 변경 X), 결과 계산을 위해 RDD에서 연산을 호출 하는 등의 작업을 실행합니다. 그리고 RDD에 내부적으로 존재하는 데이터들을 클러스터에 분배하여 클러스터 위에서 수행하는 연산들을 병렬화 작업을 진행 합니다. 또한, RDD는 클러스터의 다른 노드들과 연산이 가능하도록 여러 개의 파티션으로 나뉘어있습니다.
최종 결과를 얻기 위해 진행해가는 데이터 단위로 생각하시면 될 것 같습니다.
그 과정에서 변형, 생성 등등 작업이 진행되는 느낌!
간단하게 RDD는 이런 것이다 라는 것을 알아보았습니다. 이젠 RDD의 연산을 알아보도록 하겠습니다.
두 가지의 타입의 연산 작업이 있습니다. 트랜스포메이션과 액션 연산 작업을 지원합니다.
[ 트랜스포메이션 ]
★ 새로운 RDD를 만들어 돌려주는 연산 방식
★ 액션 연산을 만나야 작업이 실행됨
[ 액션 ]
★ 드라이버 프로그램의 최종 결과 값을 되돌려 주거나 외부 저장소에 값을 기록하는 연산 작업
★ 실제 결과 값을 얻어야 하므로 트랜스포메이션이 계산을 수행하도록 강제함
오늘은 간단하게 RDD에 대해 조금 더 자세히 알아보았습니다.
Spark에서 중요한 역할을 맡고 있다는 것도 알았고..!
이론적으로는 어느 정도 이해가 가는 내용들이었습니다.
너무 어려워..
'Spark' 카테고리의 다른 글
[We-Co] groupBy(), groupByKey(), cogroup() - Spark (0) | 2021.08.24 |
---|---|
[We-Co] RDD 생성 (0) | 2021.08.11 |
[We-Co] SparkContext (0) | 2021.08.11 |
[We-Co] Word Count - Spark 예제 (2) | 2021.08.06 |
[We-Co] Apache Spark (0) | 2021.07.23 |