[We-Co] Spark RDD의 집합 연산
안녕하세요. 위기의코딩맨입니다. 오늘은 Spark RDD 집합 연산을 알아보도록 하겠습니다. [ distinct() ] RDD의 중복된 요소들을 제외하여 새로운 RDD를 생성하는 메서드입니다. val rdd = sc.parallelize(List(1,2,3,1,2,3,1,2,3)) val result = rdd.distinct() print(result.collect.mkString(", ")) 결과는 1,2,3이 출력되는 것을 확인할 수 있습니다. [ cartesian() ] 2개의 RDD 요소를 카테시안곱을 진행하여 결과로 새로운 RDD를 생성하는 메서드입니다. val rdd = sc.parallelize(List(1,2,3)) val rdd2 = sc.parallelize(List("a","b","..
2021. 8. 26.