[We-Co] Spark RDD PIPE 및 파티션 연산
안녕하세요. 위기의 코딩맨입니다. 오늘은 Spark RDD PIP 및 파티션 연산에 대해 알아보도록 하겠습니다. [ pipe() ] 데이터를 처리할 때 외부 프로세스를 사용할 수 있습니다. val rdd = sc.parallelize(List("1,2,3","4,5,6","7,8,9")) val result = rdd.pipe("cut -f 1,3 -d,") print(result.collect.mkString(", ")) 결과는 1,3 4,6 7,9 의 결과를 얻을 수 있습니다. 해당 건은 3개 숫자의 문자열을 리눅스의 cut 유틸리티를 이용해 분리하고 1, 3번째 숫자를 가져오는 예제입니다. [ coalesce(), repartition() ] RDD를 생성하고, filter() 연산 등, 많은 트랜..
2021. 8. 27.
[We-Co] Spark RDD의 집합 연산
안녕하세요. 위기의코딩맨입니다. 오늘은 Spark RDD 집합 연산을 알아보도록 하겠습니다. [ distinct() ] RDD의 중복된 요소들을 제외하여 새로운 RDD를 생성하는 메서드입니다. val rdd = sc.parallelize(List(1,2,3,1,2,3,1,2,3)) val result = rdd.distinct() print(result.collect.mkString(", ")) 결과는 1,2,3이 출력되는 것을 확인할 수 있습니다. [ cartesian() ] 2개의 RDD 요소를 카테시안곱을 진행하여 결과로 새로운 RDD를 생성하는 메서드입니다. val rdd = sc.parallelize(List(1,2,3)) val rdd2 = sc.parallelize(List("a","b","..
2021. 8. 26.