반응형 Databricks3 [We-Co] Pyspark Xgboost - Spark, MLlib Pipelines, 수요 예측 안녕하세요. 위기의 코딩맨입니다. 오늘은 pyspark의 xgboost의 예제를 한번 풀어보도록 하겠습니다. 예제는 Databricks의 공식 문서를 참고하여 작성했습니다. databricks 문서 xgboost-pyspark - Databricks docs.databricks.com 해당 문제는 XGBoost 및 MLlib 파이프라인을 사용한 회귀 분석의 예제입니다. 또한, 자전거 공유 데이터셋을 사용했으며, 해당 데이터를 통해 시간당 자전거 대여 횟수를 예측하는 문제입니다. 즉, 많은 분야에 응용할 수 있는 수요를 예측하는 예제입니다. 데이터 셋은 UCI Machine Learning Repository에서 가져왔으며, 2011~2012년에 캐피털 자전거 공유 시스템의 자전거 대여 정보가 포함되어 있.. 2022. 3. 15. [We-Co] Databricks - Spark, 데이터 시각화 안녕하세요. 위기의 코딩맨입니다. 오늘은 Databricks를 이용하여 캐글의 Titanic Data를 이용하여 Data를 시각화 하는 방법에 대해서 알아보도록 하겠습니다. 먼저 데이터를 받아보도록 하겠습니다. 캐글 홈페이지에 접속해서 로그인 하신 후, competitions에 들어가셔서 밑에 Titanic을 클릭해주세요. [ Kaggle ] Data 탭으로 이동하시면 밑에 gender_su...test...train... 데이터들을 다운 받도록 합니다. [ Databicks ] Data Import를 통해서 다운 받은 데이터를 저장해야합니다. 해당 데이터는 "/FileStore/tables/파일명"으로 경로가 설정됩니다. 이제 코드로 한번 데이터가 잘 들어왔는지 보도록 하겠습니다. titanic_spa.. 2022. 3. 4. [We-Co] Databricks Community Edition - Spark 안녕하세요. 위기의 코딩맨입니다. 오늘은 Apache Spark 제작자가 설립한 회사에서 제작한 Databricks에 대해서 알아보도록 하겠습니다. 클러스터 관리와 IPython 스타일 노트북을 제공하며, Spark 작업을 웹 기반 플랫폼을 제공합니다. 지금까지 Cmd를 켜서 진행을 해보았는데 웹 기반 플랫폼이 있었다니..! 2주간 무료로 사용 가능하며, 유료로 제공된다고 합니다. Free Databricks Training을 클릭해서 들어갑니다. 해당 정보를 입력해서 가입하도록 합니다. 가입을 진행하면 입력한 Email로 인증 메일이 전송됩니다. 인증을 완료하고, 해당 사이트를 들어가보면 NoteBook - 작업을 위한 노트북을 생성하는 곳입니다. Data Import - 작업을 위한 데이터를 가져오는.. 2022. 2. 28. 이전 1 다음 반응형