[We-Co] Spark Dataset 액션연산
안녕하세요. 위기의코딩맨입니다. 오늘은 액션에 대해 간단하게 알아보고 액션 연산에 사용되는 함수들을 알아보도록 하겠습니다. Dataset이나 RDD는 트랜스포메이션 연산과 액션연산이 사용되며, 액션 연산이 실행될 때, 실제 연산이 실행됩니다. 액션 연산이 호출되어야만 트랜스포메이션 연산의 결과를 확인할 수 있습니다. scala> case class Person(name:String, age: Int, job:String) defined class Person scala> val row = Person("Person_1",5,"student") row: Person = Person(Person_1,5,student) scala> val row2 = Person("Person_2",10,"student") ..
2021. 9. 8.
[We-Co] Spark RDD PIPE 및 파티션 연산
안녕하세요. 위기의 코딩맨입니다. 오늘은 Spark RDD PIP 및 파티션 연산에 대해 알아보도록 하겠습니다. [ pipe() ] 데이터를 처리할 때 외부 프로세스를 사용할 수 있습니다. val rdd = sc.parallelize(List("1,2,3","4,5,6","7,8,9")) val result = rdd.pipe("cut -f 1,3 -d,") print(result.collect.mkString(", ")) 결과는 1,3 4,6 7,9 의 결과를 얻을 수 있습니다. 해당 건은 3개 숫자의 문자열을 리눅스의 cut 유틸리티를 이용해 분리하고 1, 3번째 숫자를 가져오는 예제입니다. [ coalesce(), repartition() ] RDD를 생성하고, filter() 연산 등, 많은 트랜..
2021. 8. 27.