본문 바로가기
반응형

Spark33

[We-Co] Hyperparameter Tuning - Bayesian Oprimization 안녕하세요. 위기의 코딩맨입니다. 오늘은 하이퍼 파라미터를 설정하는 방법들을 알아보도록 하게습니다. [ Grid Search ] 모델의 가장 적합한 하이퍼 파라미터를 찾기 위해서 모든 값들의 조합을 이용하여 가장 높은 성능의 하이퍼 파라미터를 찾는 탐색 방법입니다. maxD = [ 1, 3 ,5 ,7, 9 ] colS = [ 0.5, 0.7, 0.9 ] 1 = [ 0,5 ] , 1 = [ 0. 7 ] 1 = [ 0. 9 ] .... 9 = [ 0.7 ] 9 = [ 0.9 ] 총 5 * 3, 즉 15개의 조합을 이용하여 최적의 성능을 찾는 방법입니다. 해당 방법은 모든 조합을 탐색하지만 Random Search 방법을 사용하면 설정한 조합만큼 꺼낼 수 있습니다. 예를들면, Random Search의 값을 .. 2022. 3. 18.
[We-Co] Pyspark Xgboost - Spark, MLlib Pipelines, 수요 예측 안녕하세요. 위기의 코딩맨입니다. 오늘은 pyspark의 xgboost의 예제를 한번 풀어보도록 하겠습니다. 예제는 Databricks의 공식 문서를 참고하여 작성했습니다. databricks 문서 xgboost-pyspark - Databricks docs.databricks.com 해당 문제는 XGBoost 및 MLlib 파이프라인을 사용한 회귀 분석의 예제입니다. 또한, 자전거 공유 데이터셋을 사용했으며, 해당 데이터를 통해 시간당 자전거 대여 횟수를 예측하는 문제입니다. 즉, 많은 분야에 응용할 수 있는 수요를 예측하는 예제입니다. 데이터 셋은 UCI Machine Learning Repository에서 가져왔으며, 2011~2012년에 캐피털 자전거 공유 시스템의 자전거 대여 정보가 포함되어 있.. 2022. 3. 15.
[We-Co] Spark - ML PipeLine 예제 안녕하세요. 위기의 코딩맨입니다. 오늘은 간단하게 ML PipeLine에 대해서 알아보고 Spark의 공식 문서에서 나오는 pipeline 예제 풀어보도록 하겠습니다. PipeLine [We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머 we-co.tistory.com 위에 링크는 예전에 작성했던 PipeLine에 대해서 정리한 것입니다. 참고하셔도 될듯합니다. [ PipeLine 예제 ] 문제 출처 ML Pipelines - Spark 3.2.1 Documentation spark.ap.. 2022. 3. 10.
[We-Co] Databricks - Spark, 데이터 시각화 안녕하세요. 위기의 코딩맨입니다. 오늘은 Databricks를 이용하여 캐글의 Titanic Data를 이용하여 Data를 시각화 하는 방법에 대해서 알아보도록 하겠습니다. 먼저 데이터를 받아보도록 하겠습니다. 캐글 홈페이지에 접속해서 로그인 하신 후, competitions에 들어가셔서 밑에 Titanic을 클릭해주세요. [ Kaggle ] Data 탭으로 이동하시면 밑에 gender_su...test...train... 데이터들을 다운 받도록 합니다. [ Databicks ] Data Import를 통해서 다운 받은 데이터를 저장해야합니다. 해당 데이터는 "/FileStore/tables/파일명"으로 경로가 설정됩니다. 이제 코드로 한번 데이터가 잘 들어왔는지 보도록 하겠습니다. titanic_spa.. 2022. 3. 4.
[We-Co] Databricks Community Edition - Spark 안녕하세요. 위기의 코딩맨입니다. 오늘은 Apache Spark 제작자가 설립한 회사에서 제작한 Databricks에 대해서 알아보도록 하겠습니다. 클러스터 관리와 IPython 스타일 노트북을 제공하며, Spark 작업을 웹 기반 플랫폼을 제공합니다. 지금까지 Cmd를 켜서 진행을 해보았는데 웹 기반 플랫폼이 있었다니..! 2주간 무료로 사용 가능하며, 유료로 제공된다고 합니다. Free Databricks Training을 클릭해서 들어갑니다. 해당 정보를 입력해서 가입하도록 합니다. 가입을 진행하면 입력한 Email로 인증 메일이 전송됩니다. 인증을 완료하고, 해당 사이트를 들어가보면 NoteBook - 작업을 위한 노트북을 생성하는 곳입니다. Data Import - 작업을 위한 데이터를 가져오는.. 2022. 2. 28.
[We-Co] Spark Tokenizer - 문자열나누기 안녕하세요. 위기의코딩맨입니다. 오늘은 Tokenizer에 대해 간단하게 알아보도록 하겠습니다. [ Tokenizer ] 공백 문자를 기준으로하여 입력된 input 문자열을 개별 단어로 나누어 배열로 변환하고 배열을 새로운 컬럼으로 생성하는 트랜스포머입니다. 예제를 통해 알아보도록 하겠습니다. import org.apache.spark.ml.feature.Tokenizer import org.apache.spark.sql.SparkSession Logger.getLogger("org").setLevel(Level.OFF) Logger.getLogger("akka").setLevel(Level.OFF) val spark = SparkSession.builder().appName("Tokenizer").ma.. 2021. 9. 29.
[We-Co] Spark MLlib - Pipeline, Logistic Regression 안녕하세요. 위기의코딩맨입니다. 오늘은 계속해서 Spark MLlib의 Logistic Regression 로지스틱 회귀 알고리즘을 사용해서 간단한 학습을 진행해보겠습니다. 키, 몸무게, 나이 정보를 이용하여 성별을 예측해보는 Pipeline API를 사용하여 예제를 살펴보면서 알아보도록 하겠습니다. 먼저, 언어는 Scala를 사용했으며, IDE는 Eclipse를 사용하여 진행했습니다. [ 예제 ] import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.featu.. 2021. 9. 28.
[We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머신러닝을 수행합니다. 이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다. 파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다. - Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나 변형을 더욱 쉽게 처리할 수 있습니다. - Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Tra.. 2021. 9. 24.
[We-Co] Vector, LabeledPoint - Spark MLlib 안녕하세요. 위기의코딩맨입니다. Spark MLlib는 기존 Spark 모듈에서 사용하지 않았던 Data Type을 사용하는데 오늘은 비교적으로 많이 사용되는 Vector와 LabeledPoint에 대해알아보도록 하겠습니다. 먼저 MLlib를 사용하기 위해서는 의존성 설정을 진행해야합니다. pom.xml파일을 열어서 org.apache.spark spark-mllib_2.11 2.3.0 해당 부분으로 변경해주시면 됩니다. [ Vector ] 프로그램에서 Double Type의 값을 포함하는 컬렉션으로 구현되며, Vector에 포함된 각각의 Data는 정의된 순서에 0부터 시작하는 정수형 인덱스를 부여받습니다. Spark MLlib의 Vector는 org.apache.spark.ml.linalg 패키지에서.. 2021. 9. 23.
반응형