본문 바로가기
반응형

Spark33

[We-Co] Spark MLlib 안녕하세요. 위기의코딩맨입니다. 오늘은 드디어 Spark MLlib에 대해 알아보도록 하겠습니다. 너무 공부해보고 싶던 부분이라 기대됩니다.. [ MLlib ] 이름 그대로 Spark에서 제공하는 머신러닝을 위한 라이브러리라고 생각하시면 됩니다. 빅데이터를 활용하여 성공하는 기업들이 점차 늘어가면서 이를 활용한 머신러닝, 딥러닝도 같이 인기가 늘어나고 있습니다. 빅데이터의 시작은 하둡으로 시작되었으며, 하둡이 발전해나가면 스파크의 존재도 부각시키는 효과를 가져왔습니다. Spark [We-Co] Apache Spark 안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache S.. 2021. 9. 22.
[We-Co] Structured Streaming - Spark 안녕하세요. 위기의코딩맨 입니다. 오늘은 Structured Streaming에 대해 아주 간단하게 알아보도록 하겠습니다! Spark Streaming에 대해 먼저 알아보고 보시면 좋을것 같습니다. Spark Streaming [We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정 we-co.tistory.com [ Structured Streaming ] 먼저 Streaming의 의미를 알아보면 시간의 흐름에 지속적으로 생성되는 Data의 의미를 갖고있습니다. 이렇게 지속적으.. 2021. 9. 22.
[We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정을 포함하고, 시간의 흐름에 따른 변화하는 데이터를 다루는 과정도 포함됩니다. 시간의 흐름의 변화라는 것은 과거에 해당하는 고정된 데이터를 사용하는 것이 아닌 현재와 미래에 생성되는 지속적으로 변화하는 데이터를 의미합니다. 많은 데이터 처리 방식은 일상적으로 배치처리를 진행합니다. 배치처리를 진행하는 작업들의 특징은 데이터 크기가 크고, 작업 시간도 오래걸리며, 작업 도중 에러를 반환하더라도 재작업을 통한 동일한 결과물이 아웃풋으로 나와야하는 경우가 많습니다. 배치 .. 2021. 9. 16.
[We-Co] Spark to_json(), from_json() 안녕하세요. 위기의코딩맨입니다. 오늘은 스ㅏ크 2.1.0 이후 버전부터 to_json(), from_json()을 이용하여 Column에서 json 문자열로 처리할 수 있도록 되었습니다. [ to_json() ] scala> val r1 = ("S2","note",20,2000) scala> val r2 = ("S2","bag",10,5000) scala> val df = List(r1,r2).toDF("store_nm","prod_nm","amount", "price") scala> df.show +--------+-------+------+-----+ |store_nm|prod_nm|amount|price| +--------+-------+------+-----+ | S2| note| 20| 2000.. 2021. 9. 15.
[We-Co] Spark SQL API 메서드(3) 안녕하세요. 위기의 코딩맨입니다. 오늘은 Spark SQL API 메서드(3) 번째 작성을 진행해보겠습니다. Spark SQL API 메서드(2) [We-Co] Spark SQL API 메서드(2) 안녕하세요. 위기의코딩맨입니다. 오늘은 API 메서드(2)로 API의 연산자를 더 알아보도록 하겠습니다. Spark SQL API(1) [We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메 we-co.tistory.com [ intersect(), except() ] 2개의 Dataframe에서 모두 속하는 인자들만 구성된 Dataframe을 생성하는 메서드입니다. scala> val a = spark.range(1,5) a: org.apache.spark.sq.. 2021. 9. 14.
[We-Co] Spark SQL API 메서드(2) 안녕하세요. 위기의코딩맨입니다. 오늘은 API 메서드(2)로 API의 연산자를 더 알아보도록 하겠습니다. Spark SQL API(1) [We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메이션 연산은 데이터의 실제 타입을 사용하지 않은 변환 연산을 수행한다는 의미를 갖고있습니다. Spark에서 비타입 트랜스포메이션 연산을 we-co.tistory.com [ grouping(), grouping_id() ] Dataframe이 제공하는 연산 중, 소계를 구해주는 역할을 진행합니다. group으로 묶어서 해당 결과를 보여주는 역할을 하는데 예제로 설명해드리겠습니다. scala> case class Test(store: String, product: String.. 2021. 9. 13.
[We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메이션 연산은 데이터의 실제 타입을 사용하지 않은 변환 연산을 수행한다는 의미를 갖고있습니다. Spark에서 비타입 트랜스포메이션 연산을 진행할때는 Row, Column, functions의 세가지 주제를 잘 이해해야합니다. org.apache.spark.sql.Row org.apache.spark.sql.Column org.apache.spark.sql.functions Spark에서 제공하는 API 3가지를 의미합니다. 중요한 점은 연산을 진행할때, 해당 데이터의 타입과 해당 API 타입과 다르면 오류를 반환하기 때문에 유의해야합니다. 유용하게 사용되는 API 몇가지 메서드들을 살펴보겠습니다. [ ===, !== ] 2개의 컬럼 값들이 같은지 판단하는 메.. 2021. 9. 12.
[We-Co] Spark Dataset의 기본연산 안녕하세요. 위기의코딩맨입니다. 오늘은 Spark Dataset에서 기본 제공되는 연산에대해 알아보도록 하겠습니다. Dataset이 제공하는 연산은 크게 4가지로 제공되는데, 첫번째는 기본 연산, 두번째는 타입 트랜스포메이션 연산, 세번째는 비타입 트랜스포메이션 연산, 마지막 액션 연산으로 나눌수 있습니다. scala> case class Person(name:String, age: Int, job:String) defined class Person scala> val row = Person("Person_1",5,"student") row: Person = Person(Person_1,5,student) scala> val row2 = Person("Person_2",10,"student") row2:.. 2021. 9. 9.
[We-Co] Spark Dataset 액션연산 안녕하세요. 위기의코딩맨입니다. 오늘은 액션에 대해 간단하게 알아보고 액션 연산에 사용되는 함수들을 알아보도록 하겠습니다. Dataset이나 RDD는 트랜스포메이션 연산과 액션연산이 사용되며, 액션 연산이 실행될 때, 실제 연산이 실행됩니다. 액션 연산이 호출되어야만 트랜스포메이션 연산의 결과를 확인할 수 있습니다. scala> case class Person(name:String, age: Int, job:String) defined class Person scala> val row = Person("Person_1",5,"student") row: Person = Person(Person_1,5,student) scala> val row2 = Person("Person_2",10,"student") .. 2021. 9. 8.
반응형