We-Co

[We-Co] RDD 생성 본문

Spark

[We-Co] RDD 생성

위기의코딩맨 2021. 8. 11. 21:00
반응형

안녕하세요. 위기의 코딩맨입니다.

저번에 SparkContext에 대해 간단하게 알아보고, 생성하는 방법을 알아보았습니다.

 

[We-Co] SparkContext

안녕하세요. 위기의 코딩맨입니다. 오늘은 SparkConf()에 대해서 알아보도록 하겠습니다. [ SparkContext ] SparkContext는 클러스터와 스파크 애플리케이션과의 연결을 관리하는 객체로 모든 스파크 애플

we-co.tistory.com

그 다음 단계인 RDD 생성에 대해 알아보도록 하겠습니다. 

RDD는 크게 2가지 방식으로 생성 방법이 존재합니다.

 

★ 드라이버 프로그램 컬렉션 객체 이용

★ 파일, 외부 데이터를 이용

 

 

[ 드라이버 프로그램 컬렉션 객체 이용 ]

쉽게 말해서, 리스트나 시퀀스 타입의 객체를 사용하여 데이터를 설정하는 방법입니다.

 

Rdd = sc.parallelize(["A","B","C","D","E"])
print(", ".join(str(i) for i in Rdd.collect()))

 

문자열을 포함한 리스트를 SparkContext의 parallelize()를 이용해 RDD를 생성해 주었습니다. 

RDD의 값들을 꺼내보면 해당 리스트에 해당한 값들을 가져오는것을 확인할 수 있습니다.

 

 

[ 파일, 외부 데이터를 이용 ]

외부 파일을 가져와 해당 데이터를 가져와서 사용하는 방법입니다.

 

Rdd = sc.textFile("FilePath")

 

sc의 textFile() 함수를 이용하여 파일을 가져와 RDD를 생성합니다. 파일을 읽는 과정에서는 TextInputFormat을 사용하며, 파일의 각 줄은 한개의 RDD 구성요소가 됩니다. 이 말은 Rdd = sc.parallelize(["A","B","C","D","E"])에서는

"A"가 하나의 구성요소 인데, 해당 RDD 생성법은 파일의 한 줄을 하나의 구성요소가 됩니다.

 

 

오늘은 RDD 생성하는 법을 간단하게 알아보았습니다.!

하나씩 배워 나가봅시다!!

 

 

반응형

'Spark' 카테고리의 다른 글

[We-Co] Spark RDD의 집합 연산  (0) 2021.08.26
[We-Co] groupBy(), groupByKey(), cogroup() - Spark  (0) 2021.08.24
[We-Co] SparkContext  (0) 2021.08.11
[We-Co] Word Count - Spark 예제  (2) 2021.08.06
[We-Co] Spark RDD  (0) 2021.07.23