We-Co

[We-Co] Databricks Community Edition - Spark 본문

Spark

[We-Co] Databricks Community Edition - Spark

위기의코딩맨 2022. 2. 28. 15:59
반응형

안녕하세요. 위기의 코딩맨입니다.

오늘은 Apache Spark 제작자가 설립한 회사에서 제작한 Databricks에 대해서 알아보도록 하겠습니다.

클러스터 관리와 IPython 스타일 노트북을 제공하며, 

Spark 작업을 웹 기반 플랫폼을 제공합니다.

Databricks

지금까지 Cmd를 켜서 진행을 해보았는데 웹 기반 플랫폼이 있었다니..! 

2주간 무료로 사용 가능하며, 유료로 제공된다고 합니다.

 

Databricks.com

Free Databricks Training을 클릭해서 들어갑니다.

Free Databricks

해당 정보를 입력해서 가입하도록 합니다.

가입을 진행하면 입력한 Email로 인증 메일이 전송됩니다.

인증을 완료하고, 해당 사이트를 들어가보면

 

Databrick Website

NoteBook - 작업을 위한 노트북을 생성하는 곳입니다.

Data Import - 작업을 위한 데이터를 가져오는 곳입니다.

Guid - 튜토리얼을 진행해 볼 수 있는 곳 입니다.

 

Create a notebook을 클릭하면 아래와 같은 창이 뜨는데 

노트북에 대한 정보를 입력합니다.

Language는 Python, Scala, SQL, R 등이 존재합니다.

Cluster는 아직 만들어 놓은게 없으므로 그냥 무시하고 Create 버튼으로 생성해주도록 합니다.

Create NoteBook

 

생성이 완료되면 아래 화면처럼 노트북이 생성됩니다.

생성된 화면

하지만 작업을 위한 클러스터가 생성되어 있지 않으므로 작업이 진행이 되지 않습니다.

Detached를 클릭해 생성해 주도록 합니다.

 

New Cluster

Cluster Name과 Databricks runtime version을 선택해서 진행하도록 합니다.

저는 10.0ML를 사용하였습니다.생

그리고 무료버전이므로, 2시간 정도 지나면 자동으로 클러스터가 해제된다고 합니다.

자동으로 해제되면 다시 생성해서 붙여야하는 불편함이 있습니다..

생성되는데는 기본적으로 3~5분정도 걸린다고 합니다.

Cluster

복사, 재시작, Terminate는 해당 Cluster를 정지시키는 작업인데 이 작업을 진행하면 다시 생성해서 붙여야 합니다.

마지막으로 삭제 기능이 존재합니다.

 

생성완료

생성이 완료되면 해당 클러스터를 붙여주도록 합니다.

 

Spark
SQL

해당 방식으로 SQL도 사용이 가능합니다.

 

 

오늘은 간단하게 Databricks의 사용법을 알아보았습니다.

Databricks Community Edition은 2주간 무료이니 한번 경험해보시는 것도 나쁘지 않을듯합니다.

반응형