일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- kaggle
- 부스트클래스
- spark
- 연남동 맛집
- 서울 맛집
- Transformer
- 캐글
- 부스트캠프 ai tech 준비과정
- mllib
- yolo
- 자연어
- TensorFlow
- pycharm
- Spark MLlib
- 부스트캠프
- 연남 맛집
- 맛집
- tensorflow 예제
- Ai
- RDD
- Python
- AI 엔지니어 기초 다지기
- AI Tech 준비과정
- DataSet
- 홍대 맛집
- 위기의코딩맨
- r
- AI tech
- 데이터 시각화
- NLP
- Today
- Total
We-Co
[We-Co] Spark MLlib PipeLine(파이프라인) 본문
안녕하세요. 위기의코딩맨입니다.
오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다.
[ PipeLine ]
데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며
머신러닝을 수행합니다.
이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다.
파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다.
- Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나
변형을 더욱 쉽게 처리할 수 있습니다.
- Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Transformer 클래스를 상속하는 클래스를 의미합니다. Dataframe을 변형하여 새로운 Dataframe을 생성하는 용도로
사용됩니다. 또한, 기존 데이터를 새로운 칼럼을 추가하는 방식으로 변형을 진행합니다.
- Estimator(평가자) : Spark MLlib Estimator은 org.apache.spark.ml 패키지에 선언된 Estimator 추상 클래스 상속하는 클래스를 의미합니다. Dataframe에 알고리즘을 적ㅇㅇ하여 새로운 Transformer를 생성하는 역할을 진행합니다.
- Pipeline(파이프라인) : 여러 알고리즘을 순차적으로 실행하도록 도와주는 워크플로우를 생성하는 Estimartor입니다.
동록된 파이프라인 스테이지들을 우선순위에 따라 순차적으로 실행합니다.
- ParamMap : Estimartor나 Transformer에 파라미터를 전당하기위한 목적으로 사용되는 클래스입니다.
오늘은 간단하게 Spark MLlib PipeLine에 대해 간단하게 의미와 사용 API들을 알아보았습니다.
다음에는 Pipeline을 이용한 예제를 한번 작성해보겠습니다.
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/002.gif)
'Spark' 카테고리의 다른 글
[We-Co] Spark Tokenizer - 문자열나누기 (0) | 2021.09.29 |
---|---|
[We-Co] Spark MLlib - Pipeline, Logistic Regression (0) | 2021.09.28 |
[We-Co] Vector, LabeledPoint - Spark MLlib (0) | 2021.09.23 |
[We-Co] Spark MLlib (0) | 2021.09.22 |
[We-Co] Structured Streaming - Spark (0) | 2021.09.22 |