반응형 RDD5 [We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정을 포함하고, 시간의 흐름에 따른 변화하는 데이터를 다루는 과정도 포함됩니다. 시간의 흐름의 변화라는 것은 과거에 해당하는 고정된 데이터를 사용하는 것이 아닌 현재와 미래에 생성되는 지속적으로 변화하는 데이터를 의미합니다. 많은 데이터 처리 방식은 일상적으로 배치처리를 진행합니다. 배치처리를 진행하는 작업들의 특징은 데이터 크기가 크고, 작업 시간도 오래걸리며, 작업 도중 에러를 반환하더라도 재작업을 통한 동일한 결과물이 아웃풋으로 나와야하는 경우가 많습니다. 배치 .. 2021. 9. 16. [We-Co] Spark RDD 출력 연산 (2) 안녕하세요. 위기의코딩맨입니다. 오늘은 RDD 출력연산 2번째 시간입니다!! Spark RDD 출력연산(1) [We-Co] Spark RDD 출력 연산 (1) 안녕하세요. 위기의코딩맨입니다. 오늘은 RDD의 출력 연산에 관해 알아보도록 하겠습니다. 관련 연산들이 많이 존재하여 첫번째와 두번째 나눠서 진행하도록 하겠습니다. [ first ] first는 말 그대 we-co.tistory.com 바로 시작해보겠습니다. [ aggregate() ] reduce()와 fold() 메서드는 입출력이 모두 같은 타입으로 진행해야한다는 제약조건이 있지만, aggregate()는 그러한 제약조건이 걸려있지않습니다. 간단하게 알아보면 총 3개의 인자를 사용합니다. 첫번째로는 fold()와 유사하게 초깃값을 지정해주고, .. 2021. 9. 2. [We-Co] Spark RDD filter 및 정렬 연산 안녕하세요. 위기의 코딩맨입니다. 오늘은 RDD의 filter 및 정렬 연산에 대해 알아보도록 하겠습니다. [ filter() ] 용어 그대로 내가 원하는 요소를 뽑아내는 함수입니다 scala> val rdd = sc.parallelize(1 to 5) scala> val result = rdd.filter(_>2) scala> print(result.collect.mkString(", ")) 결과를 확인해보면 3, 4, 5 가 출력되는 것을 확인할 수 있습니다. 1~ 5까지 숫자를 RDD에 넣어주고 2보다 큰 수를 result에 넣어주도록 filter()의 조건을 설정해주면 결과 값이 출력 됩니다. [ sortByKey() ] sortByKey() 함수는 키 값을 기준으로 RDD의 요소들을 정렬하는 연.. 2021. 9. 1. [We-Co] RDD 생성 안녕하세요. 위기의 코딩맨입니다. 저번에 SparkContext에 대해 간단하게 알아보고, 생성하는 방법을 알아보았습니다. [We-Co] SparkContext 안녕하세요. 위기의 코딩맨입니다. 오늘은 SparkConf()에 대해서 알아보도록 하겠습니다. [ SparkContext ] SparkContext는 클러스터와 스파크 애플리케이션과의 연결을 관리하는 객체로 모든 스파크 애플 we-co.tistory.com 그 다음 단계인 RDD 생성에 대해 알아보도록 하겠습니다. RDD는 크게 2가지 방식으로 생성 방법이 존재합니다. ★ 드라이버 프로그램 컬렉션 객체 이용 ★ 파일, 외부 데이터를 이용 [ 드라이버 프로그램 컬렉션 객체 이용 ] 쉽게 말해서, 리스트나 시퀀스 타입의 객체를 사용하여 데이터를 설정.. 2021. 8. 11. [We-Co] Spark RDD 안녕하세요. 위기의 코딩맨 입니다! 오늘은 Spark의 RDD에 대해 알아보도록 하겠습니다. Spark는 정말 어려운것 같아요..ㅠ 그래도 힘내서 공부해 봅시다! 먼저 RDD보다 Spark에 대해 먼저 알아보고 싶으시면! Spark [We-Co] Apache Spark란?? 안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache Spa we-co.tistory.com [ RDD ] RDD를 풀어서 먼저 해석하면 Resilient - 변하지 않는, 회복력 있는 Distributed - 분산, 분배 Dataset - 데이터, 정보 단순하게 분산되어 존재하고 있는 데이터 요소들의.. 2021. 7. 23. 이전 1 다음 반응형