반응형 pyspark1 [We-Co] groupBy(), groupByKey(), cogroup() - Spark 안녕하세요. 위기의코딩맨 입니다. 오늘은 Spark의 groupBy와 groupByKey에 대해 알아보도록 하겠습니다. [ groupBy ] RDD의 값들을 설정한 기준에 따라서 여러개의 그룹으로 나누고 해당하는 그룹으로 구성된 새로운 RDD를 생성하는 것이 groupBy()의 역할입니다. 키와 요소들의 시퀀스로 구성되어 있으며, 밑의 예제로 한번 알아보도록 하겠습니다. scala> val rdd = sc.parallelize(1 to 20) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :24 scala> val result = rdd.groupBy{ case i: Int if(i%2==0) => "even.. 2021. 8. 24. 이전 1 다음 반응형