안녕하세요. 위기의코딩맨입니다.
오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다.
[ PipeLine ]
데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며
머신러닝을 수행합니다.
이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다.
파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다.
- Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나
변형을 더욱 쉽게 처리할 수 있습니다.
- Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Transformer 클래스를 상속하는 클래스를 의미합니다. Dataframe을 변형하여 새로운 Dataframe을 생성하는 용도로
사용됩니다. 또한, 기존 데이터를 새로운 칼럼을 추가하는 방식으로 변형을 진행합니다.
- Estimator(평가자) : Spark MLlib Estimator은 org.apache.spark.ml 패키지에 선언된 Estimator 추상 클래스 상속하는 클래스를 의미합니다. Dataframe에 알고리즘을 적ㅇㅇ하여 새로운 Transformer를 생성하는 역할을 진행합니다.
- Pipeline(파이프라인) : 여러 알고리즘을 순차적으로 실행하도록 도와주는 워크플로우를 생성하는 Estimartor입니다.
동록된 파이프라인 스테이지들을 우선순위에 따라 순차적으로 실행합니다.
- ParamMap : Estimartor나 Transformer에 파라미터를 전당하기위한 목적으로 사용되는 클래스입니다.
오늘은 간단하게 Spark MLlib PipeLine에 대해 간단하게 의미와 사용 API들을 알아보았습니다.
다음에는 Pipeline을 이용한 예제를 한번 작성해보겠습니다.
'Spark' 카테고리의 다른 글
[We-Co] Spark Tokenizer - 문자열나누기 (0) | 2021.09.29 |
---|---|
[We-Co] Spark MLlib - Pipeline, Logistic Regression (0) | 2021.09.28 |
[We-Co] Vector, LabeledPoint - Spark MLlib (0) | 2021.09.23 |
[We-Co] Spark MLlib (0) | 2021.09.22 |
[We-Co] Structured Streaming - Spark (0) | 2021.09.22 |