본문 바로가기
Spark

[We-Co] Spark MLlib

by 위기의코딩맨 2021. 9. 22.
반응형

안녕하세요. 위기의코딩맨입니다.

오늘은 드디어 Spark MLlib에 대해 알아보도록 하겠습니다.

너무 공부해보고 싶던 부분이라 기대됩니다..

[ MLlib ]

이름 그대로 Spark에서 제공하는 머신러닝을 위한 라이브러리라고 생각하시면 됩니다.

빅데이터를 활용하여 성공하는 기업들이 점차 늘어가면서

이를 활용한 머신러닝, 딥러닝도 같이 인기가 늘어나고 있습니다.

 

빅데이터의 시작은 하둡으로 시작되었으며, 하둡이 발전해나가면 스파크의 존재도 부각시키는 효과를 가져왔습니다.

Spark

 

[We-Co] Apache Spark

안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache Spa

we-co.tistory.com

메모리 기반으로 동작하여 머신러닝를 수행하는 것에 월등한 성능을 보여주었기에

Spark가 더욱 각광받으며 확장해 나갔습니다.

 

머신러닝에 사용하는 데이터들은 원본 데이터로부터 특성을 추출하는 과정인 변환, 필터링, 정규화 등

다양한 작업이 실행되는데 MLlib에서 특성 추출 작업을 보다 편리하게 수행할 수있도록

다양한 변환, 선택 알고리즘, 유틸리티 함수를 제공합니다.

 

또한, 머신러닝 수행 방법에서 올바른 출력 값을 알고 있는 Dataset을 통해,

그에 따른 출력 값으로 함께 학습을 진행한 값으로 알려지지 않은 새로운 입력 값에 대한

출력 값을 찾는 방법인 지도 학습 방식을 올바른 출력 값을 알려주는 label의 값이 있는데

이러한 Label을 포함한 Dataset을 다루기 위한 Spark에서 제공하는 labeldPoint 함수 등 

머신러닝에 사용하기 편리하도록 제공되는 함수들이 존재합니다.

 

MLlib에서 머신러닝 수행을 위한 다양한 알고리즘, 모델 클래스를 제공하며

알고리즘, 모델 클래스는 Spark와 같이 디스크나 외부 저장소에 저장하고 불러오는 기능도 가능합니다.

 

오늘은 간단하게 Spark의 MLlib을 알아보았습니다.

앞으로 MLlib에 대해 알아보며 블로그를 작성해 보도록하겠습니다.

반응형

'Spark' 카테고리의 다른 글

[We-Co] Spark MLlib PipeLine(파이프라인)  (0) 2021.09.24
[We-Co] Vector, LabeledPoint - Spark MLlib  (0) 2021.09.23
[We-Co] Structured Streaming - Spark  (0) 2021.09.22
[We-Co] Spark Streaming  (0) 2021.09.16
[We-Co] Spark to_json(), from_json()  (0) 2021.09.15