본문 바로가기
반응형

spark26

[We-Co] Pyspark Xgboost - Spark, MLlib Pipelines, 수요 예측 안녕하세요. 위기의 코딩맨입니다. 오늘은 pyspark의 xgboost의 예제를 한번 풀어보도록 하겠습니다. 예제는 Databricks의 공식 문서를 참고하여 작성했습니다. databricks 문서 xgboost-pyspark - Databricks docs.databricks.com 해당 문제는 XGBoost 및 MLlib 파이프라인을 사용한 회귀 분석의 예제입니다. 또한, 자전거 공유 데이터셋을 사용했으며, 해당 데이터를 통해 시간당 자전거 대여 횟수를 예측하는 문제입니다. 즉, 많은 분야에 응용할 수 있는 수요를 예측하는 예제입니다. 데이터 셋은 UCI Machine Learning Repository에서 가져왔으며, 2011~2012년에 캐피털 자전거 공유 시스템의 자전거 대여 정보가 포함되어 있.. 2022. 3. 15.
[We-Co] Spark - ML PipeLine 예제 안녕하세요. 위기의 코딩맨입니다. 오늘은 간단하게 ML PipeLine에 대해서 알아보고 Spark의 공식 문서에서 나오는 pipeline 예제 풀어보도록 하겠습니다. PipeLine [We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머 we-co.tistory.com 위에 링크는 예전에 작성했던 PipeLine에 대해서 정리한 것입니다. 참고하셔도 될듯합니다. [ PipeLine 예제 ] 문제 출처 ML Pipelines - Spark 3.2.1 Documentation spark.ap.. 2022. 3. 10.
[We-Co] Databricks Community Edition - Spark 안녕하세요. 위기의 코딩맨입니다. 오늘은 Apache Spark 제작자가 설립한 회사에서 제작한 Databricks에 대해서 알아보도록 하겠습니다. 클러스터 관리와 IPython 스타일 노트북을 제공하며, Spark 작업을 웹 기반 플랫폼을 제공합니다. 지금까지 Cmd를 켜서 진행을 해보았는데 웹 기반 플랫폼이 있었다니..! 2주간 무료로 사용 가능하며, 유료로 제공된다고 합니다. Free Databricks Training을 클릭해서 들어갑니다. 해당 정보를 입력해서 가입하도록 합니다. 가입을 진행하면 입력한 Email로 인증 메일이 전송됩니다. 인증을 완료하고, 해당 사이트를 들어가보면 NoteBook - 작업을 위한 노트북을 생성하는 곳입니다. Data Import - 작업을 위한 데이터를 가져오는.. 2022. 2. 28.
[We-Co] Spark Tokenizer - 문자열나누기 안녕하세요. 위기의코딩맨입니다. 오늘은 Tokenizer에 대해 간단하게 알아보도록 하겠습니다. [ Tokenizer ] 공백 문자를 기준으로하여 입력된 input 문자열을 개별 단어로 나누어 배열로 변환하고 배열을 새로운 컬럼으로 생성하는 트랜스포머입니다. 예제를 통해 알아보도록 하겠습니다. import org.apache.spark.ml.feature.Tokenizer import org.apache.spark.sql.SparkSession Logger.getLogger("org").setLevel(Level.OFF) Logger.getLogger("akka").setLevel(Level.OFF) val spark = SparkSession.builder().appName("Tokenizer").ma.. 2021. 9. 29.
[We-Co] Spark MLlib - Pipeline, Logistic Regression 안녕하세요. 위기의코딩맨입니다. 오늘은 계속해서 Spark MLlib의 Logistic Regression 로지스틱 회귀 알고리즘을 사용해서 간단한 학습을 진행해보겠습니다. 키, 몸무게, 나이 정보를 이용하여 성별을 예측해보는 Pipeline API를 사용하여 예제를 살펴보면서 알아보도록 하겠습니다. 먼저, 언어는 Scala를 사용했으며, IDE는 Eclipse를 사용하여 진행했습니다. [ 예제 ] import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.featu.. 2021. 9. 28.
[We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머신러닝을 수행합니다. 이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다. 파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다. - Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나 변형을 더욱 쉽게 처리할 수 있습니다. - Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Tra.. 2021. 9. 24.
[We-Co] Spark MLlib 안녕하세요. 위기의코딩맨입니다. 오늘은 드디어 Spark MLlib에 대해 알아보도록 하겠습니다. 너무 공부해보고 싶던 부분이라 기대됩니다.. [ MLlib ] 이름 그대로 Spark에서 제공하는 머신러닝을 위한 라이브러리라고 생각하시면 됩니다. 빅데이터를 활용하여 성공하는 기업들이 점차 늘어가면서 이를 활용한 머신러닝, 딥러닝도 같이 인기가 늘어나고 있습니다. 빅데이터의 시작은 하둡으로 시작되었으며, 하둡이 발전해나가면 스파크의 존재도 부각시키는 효과를 가져왔습니다. Spark [We-Co] Apache Spark 안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache S.. 2021. 9. 22.
[We-Co] Structured Streaming - Spark 안녕하세요. 위기의코딩맨 입니다. 오늘은 Structured Streaming에 대해 아주 간단하게 알아보도록 하겠습니다! Spark Streaming에 대해 먼저 알아보고 보시면 좋을것 같습니다. Spark Streaming [We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정 we-co.tistory.com [ Structured Streaming ] 먼저 Streaming의 의미를 알아보면 시간의 흐름에 지속적으로 생성되는 Data의 의미를 갖고있습니다. 이렇게 지속적으.. 2021. 9. 22.
[We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정을 포함하고, 시간의 흐름에 따른 변화하는 데이터를 다루는 과정도 포함됩니다. 시간의 흐름의 변화라는 것은 과거에 해당하는 고정된 데이터를 사용하는 것이 아닌 현재와 미래에 생성되는 지속적으로 변화하는 데이터를 의미합니다. 많은 데이터 처리 방식은 일상적으로 배치처리를 진행합니다. 배치처리를 진행하는 작업들의 특징은 데이터 크기가 크고, 작업 시간도 오래걸리며, 작업 도중 에러를 반환하더라도 재작업을 통한 동일한 결과물이 아웃풋으로 나와야하는 경우가 많습니다. 배치 .. 2021. 9. 16.
반응형