본문 바로가기
반응형

spark dataset3

[We-Co] Spark Dataset의 기본연산 안녕하세요. 위기의코딩맨입니다. 오늘은 Spark Dataset에서 기본 제공되는 연산에대해 알아보도록 하겠습니다. Dataset이 제공하는 연산은 크게 4가지로 제공되는데, 첫번째는 기본 연산, 두번째는 타입 트랜스포메이션 연산, 세번째는 비타입 트랜스포메이션 연산, 마지막 액션 연산으로 나눌수 있습니다. scala> case class Person(name:String, age: Int, job:String) defined class Person scala> val row = Person("Person_1",5,"student") row: Person = Person(Person_1,5,student) scala> val row2 = Person("Person_2",10,"student") row2:.. 2021. 9. 9.
[We-Co] Spark Dataset 액션연산 안녕하세요. 위기의코딩맨입니다. 오늘은 액션에 대해 간단하게 알아보고 액션 연산에 사용되는 함수들을 알아보도록 하겠습니다. Dataset이나 RDD는 트랜스포메이션 연산과 액션연산이 사용되며, 액션 연산이 실행될 때, 실제 연산이 실행됩니다. 액션 연산이 호출되어야만 트랜스포메이션 연산의 결과를 확인할 수 있습니다. scala> case class Person(name:String, age: Int, job:String) defined class Person scala> val row = Person("Person_1",5,"student") row: Person = Person(Person_1,5,student) scala> val row2 = Person("Person_2",10,"student") .. 2021. 9. 8.
[We-Co] Spark Dataset 안녕하세요. 위기의코딩맨입니다. 오늘은 Spark에서 중요한 개념인 Dataset에 대해 간단하게 알아보도록 하겠습니다. [ DataSet ] Dataset 나오기 이전에 DataFrame이라는 클래스를 구현해서 언어와 상관 없이 사용하고 있었습니다. Dataset은 버전 Saprk 1.6에서 처음 소개되었으며, Java언어와 Scala언어에서만 사용이 가능했었습니다. 이때 버전에서는 Dataset이 DataFrame을 대체한다는 느낌이 없었기 때문에 두 가지 모두 사용했습니다. 그러나 Spark 2.0 버전부터 DataFrame 클래스가 Dataset 클래스로 통합되어 타입 별칭 기능을 가진 Scala 언어에서만 기존 방식 처럼 모두 사용가능 했지만 해당 기능이 없던 Java에서는 통합된 Dataset.. 2021. 9. 6.
반응형