[We-Co] Spark RDD PIPE 및 파티션 연산
안녕하세요. 위기의 코딩맨입니다. 오늘은 Spark RDD PIP 및 파티션 연산에 대해 알아보도록 하겠습니다. [ pipe() ] 데이터를 처리할 때 외부 프로세스를 사용할 수 있습니다. val rdd = sc.parallelize(List("1,2,3","4,5,6","7,8,9")) val result = rdd.pipe("cut -f 1,3 -d,") print(result.collect.mkString(", ")) 결과는 1,3 4,6 7,9 의 결과를 얻을 수 있습니다. 해당 건은 3개 숫자의 문자열을 리눅스의 cut 유틸리티를 이용해 분리하고 1, 3번째 숫자를 가져오는 예제입니다. [ coalesce(), repartition() ] RDD를 생성하고, filter() 연산 등, 많은 트랜..
2021. 8. 27.