반응형 dataframe4 [We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머신러닝을 수행합니다. 이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다. 파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다. - Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나 변형을 더욱 쉽게 처리할 수 있습니다. - Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Tra.. 2021. 9. 24. [We-Co] Structured Streaming - Spark 안녕하세요. 위기의코딩맨 입니다. 오늘은 Structured Streaming에 대해 아주 간단하게 알아보도록 하겠습니다! Spark Streaming에 대해 먼저 알아보고 보시면 좋을것 같습니다. Spark Streaming [We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정 we-co.tistory.com [ Structured Streaming ] 먼저 Streaming의 의미를 알아보면 시간의 흐름에 지속적으로 생성되는 Data의 의미를 갖고있습니다. 이렇게 지속적으.. 2021. 9. 22. [We-Co] Spark SQL API 메서드(2) 안녕하세요. 위기의코딩맨입니다. 오늘은 API 메서드(2)로 API의 연산자를 더 알아보도록 하겠습니다. Spark SQL API(1) [We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메이션 연산은 데이터의 실제 타입을 사용하지 않은 변환 연산을 수행한다는 의미를 갖고있습니다. Spark에서 비타입 트랜스포메이션 연산을 we-co.tistory.com [ grouping(), grouping_id() ] Dataframe이 제공하는 연산 중, 소계를 구해주는 역할을 진행합니다. group으로 묶어서 해당 결과를 보여주는 역할을 하는데 예제로 설명해드리겠습니다. scala> case class Test(store: String, product: String.. 2021. 9. 13. [We-Co] Spark Dataset,Dataframe을 이용한 단어 수 세기 예제 안녕하세요. 위기의코딩맨 입니다. 오늘은 Dataset과 dataframe을 이용하여 단어 수를 카운트하는 예제를 작성해보겠습니다. 우선 코드를 작성하기 전에 pom.xml 파일을 설정해주셔야 합니다. org.apache.spark spark-sql_2.11 2.3.0 이제 코드를 작성하는데 단계별로 나눠서 진행하겠습니다. 1. SaprkSession 생성 2. SparkSession으로부터 Dataset 또는 Dataframe 생성 3. 생성된 Dataset 또는 Dataframe을 통한 데이터 처리 4. SaprkSession 종료 [ SparkSession 생성 ] scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.. 2021. 9. 6. 이전 1 다음 반응형