일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- Python
- 맛집
- 위기의코딩맨
- DataSet
- NLP
- 캐글
- 홍대 맛집
- 부스트클래스
- AI 엔지니어 기초 다지기
- mllib
- 부스트캠프
- r
- 자연어
- RDD
- Transformer
- AI Tech 준비과정
- TensorFlow
- tensorflow 예제
- pycharm
- 연남 맛집
- yolo
- 연남동 맛집
- 부스트캠프 ai tech 준비과정
- Ai
- AI tech
- kaggle
- 데이터 시각화
- Spark MLlib
- 서울 맛집
- spark
- Today
- Total
We-Co
[We-Co] RDD 생성 본문
안녕하세요. 위기의 코딩맨입니다.
저번에 SparkContext에 대해 간단하게 알아보고, 생성하는 방법을 알아보았습니다.
[We-Co] SparkContext
안녕하세요. 위기의 코딩맨입니다. 오늘은 SparkConf()에 대해서 알아보도록 하겠습니다. [ SparkContext ] SparkContext는 클러스터와 스파크 애플리케이션과의 연결을 관리하는 객체로 모든 스파크 애플
we-co.tistory.com
그 다음 단계인 RDD 생성에 대해 알아보도록 하겠습니다.
RDD는 크게 2가지 방식으로 생성 방법이 존재합니다.
★ 드라이버 프로그램 컬렉션 객체 이용
★ 파일, 외부 데이터를 이용
[ 드라이버 프로그램 컬렉션 객체 이용 ]
쉽게 말해서, 리스트나 시퀀스 타입의 객체를 사용하여 데이터를 설정하는 방법입니다.
Rdd = sc.parallelize(["A","B","C","D","E"])
print(", ".join(str(i) for i in Rdd.collect()))
문자열을 포함한 리스트를 SparkContext의 parallelize()를 이용해 RDD를 생성해 주었습니다.
RDD의 값들을 꺼내보면 해당 리스트에 해당한 값들을 가져오는것을 확인할 수 있습니다.
[ 파일, 외부 데이터를 이용 ]
외부 파일을 가져와 해당 데이터를 가져와서 사용하는 방법입니다.
Rdd = sc.textFile("FilePath")
sc의 textFile() 함수를 이용하여 파일을 가져와 RDD를 생성합니다. 파일을 읽는 과정에서는 TextInputFormat을 사용하며, 파일의 각 줄은 한개의 RDD 구성요소가 됩니다. 이 말은 Rdd = sc.parallelize(["A","B","C","D","E"])에서는
"A"가 하나의 구성요소 인데, 해당 RDD 생성법은 파일의 한 줄을 하나의 구성요소가 됩니다.
오늘은 RDD 생성하는 법을 간단하게 알아보았습니다.!
하나씩 배워 나가봅시다!!
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/011.gif)
'Spark' 카테고리의 다른 글
[We-Co] Spark RDD의 집합 연산 (0) | 2021.08.26 |
---|---|
[We-Co] groupBy(), groupByKey(), cogroup() - Spark (0) | 2021.08.24 |
[We-Co] SparkContext (0) | 2021.08.11 |
[We-Co] Word Count - Spark 예제 (2) | 2021.08.06 |
[We-Co] Spark RDD (0) | 2021.07.23 |