본문 바로가기

Spark MLlib4

[We-Co] Spark MLlib - Pipeline, Logistic Regression 안녕하세요. 위기의코딩맨입니다. 오늘은 계속해서 Spark MLlib의 Logistic Regression 로지스틱 회귀 알고리즘을 사용해서 간단한 학습을 진행해보겠습니다. 키, 몸무게, 나이 정보를 이용하여 성별을 예측해보는 Pipeline API를 사용하여 예제를 살펴보면서 알아보도록 하겠습니다. 먼저, 언어는 Scala를 사용했으며, IDE는 Eclipse를 사용하여 진행했습니다. [ 예제 ] import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.featu.. 2021. 9. 28.

[We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머신러닝을 수행합니다. 이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다. 파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다. - Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나 변형을 더욱 쉽게 처리할 수 있습니다. - Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Tra.. 2021. 9. 24.

[We-Co] Vector, LabeledPoint - Spark MLlib 안녕하세요. 위기의코딩맨입니다. Spark MLlib는 기존 Spark 모듈에서 사용하지 않았던 Data Type을 사용하는데 오늘은 비교적으로 많이 사용되는 Vector와 LabeledPoint에 대해알아보도록 하겠습니다. 먼저 MLlib를 사용하기 위해서는 의존성 설정을 진행해야합니다. pom.xml파일을 열어서 org.apache.spark spark-mllib_2.11 2.3.0 해당 부분으로 변경해주시면 됩니다. [ Vector ] 프로그램에서 Double Type의 값을 포함하는 컬렉션으로 구현되며, Vector에 포함된 각각의 Data는 정의된 순서에 0부터 시작하는 정수형 인덱스를 부여받습니다. Spark MLlib의 Vector는 org.apache.spark.ml.linalg 패키지에서.. 2021. 9. 23.

[We-Co] Spark MLlib 안녕하세요. 위기의코딩맨입니다. 오늘은 드디어 Spark MLlib에 대해 알아보도록 하겠습니다. 너무 공부해보고 싶던 부분이라 기대됩니다.. [ MLlib ] 이름 그대로 Spark에서 제공하는 머신러닝을 위한 라이브러리라고 생각하시면 됩니다. 빅데이터를 활용하여 성공하는 기업들이 점차 늘어가면서 이를 활용한 머신러닝, 딥러닝도 같이 인기가 늘어나고 있습니다. 빅데이터의 시작은 하둡으로 시작되었으며, 하둡이 발전해나가면 스파크의 존재도 부각시키는 효과를 가져왔습니다. Spark [We-Co] Apache Spark 안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache S.. 2021. 9. 22.

이전 1 다음

티스토리툴바