본문 바로가기
Spark

[We-Co] Spark MLlib PipeLine(파이프라인)

by 위기의코딩맨 2021. 9. 24.
반응형

안녕하세요. 위기의코딩맨입니다.

오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. 

 

[ PipeLine ]

데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며

머신러닝을 수행합니다.

이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다.

파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다.

 

- Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나

변형을 더욱 쉽게 처리할 수 있습니다.

 

- Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Transformer 클래스를 상속하는 클래스를 의미합니다. Dataframe을 변형하여 새로운 Dataframe을 생성하는 용도로 

사용됩니다. 또한, 기존 데이터를 새로운 칼럼을 추가하는 방식으로 변형을 진행합니다.

 

- Estimator(평가자) : Spark MLlib Estimator은 org.apache.spark.ml 패키지에 선언된 Estimator 추상 클래스 상속하는 클래스를 의미합니다. Dataframe에 알고리즘을 적ㅇㅇ하여 새로운 Transformer를 생성하는 역할을 진행합니다.

 

- Pipeline(파이프라인) : 여러 알고리즘을 순차적으로 실행하도록 도와주는 워크플로우를 생성하는 Estimartor입니다.

동록된 파이프라인 스테이지들을 우선순위에 따라 순차적으로 실행합니다.

 

- ParamMap : Estimartor나 Transformer에 파라미터를 전당하기위한 목적으로 사용되는 클래스입니다.

 

 

 

오늘은 간단하게 Spark MLlib PipeLine에 대해 간단하게 의미와 사용 API들을 알아보았습니다.

다음에는 Pipeline을 이용한 예제를 한번 작성해보겠습니다.

반응형