본문 바로가기
반응형

전체 글201

[We-Co] 선형회귀 숫자 예측 - TensorFlow Linear Regression 안녕하세요. 위기의코딩맨입니다. 오늘은 TensorFlow Linear Regression에 대해 알아보도록 하겠습니다. [ Linear Regression ] 간단하게 설명하면 변수들의 사이의 관계를 분석하는데 사용되는 통계학적인 방법을 의미합니다. 학습을 해당 수식으로 표현하는 알고리즘으로, y는 타겟데이터, x는 인풋데이터, W와 b는 파라미터로 진행됩니다. 학습한 가설을 바탕으로 테스트 데이터에 대해서 예측을 할 수 있습니다. 예제를 통해 알아보도록 하겠습니다. import tensorflow as tf #파라미터 설정 차원을 1개로 W = tf.Variable(tf.random.normal(shape=[1])) b = tf.Variable(tf.random.normal(shape=[1])) #L.. 2021. 9. 27.
[We-Co] Spark MLlib PipeLine(파이프라인) 안녕하세요. 위기의코딩맨입니다. 오늘은 MLlib의 파이프라인에 대해 간단하게 알아보도록 하겠습니다. [ PipeLine ] 데이터를 수집하고, 가공, 추출, 적용, 평가, 배포 등 일련의 작업을 반복하며 머신러닝을 수행합니다. 이러한 순차적으로 알고리즘을 실행할 수 있도록 지원하는 고차원 API를 의미합니다. 파이프라인의 API를 사용하기 위해서 알아둬야할 주요 항목들이 존재합니다. - Dataframe : 파이프라인은 RDD가 아닌 Dataframe을사용하며, 다양한 유형의 데이터를 포함할 수 있어 가공이나 변형을 더욱 쉽게 처리할 수 있습니다. - Transformer(트랜스포머) : Spark MLlib의 Tansformer는 org.apache.spark.ml 패키지에 선언된 추상 클래스 Tra.. 2021. 9. 24.
[We-Co] Vector, LabeledPoint - Spark MLlib 안녕하세요. 위기의코딩맨입니다. Spark MLlib는 기존 Spark 모듈에서 사용하지 않았던 Data Type을 사용하는데 오늘은 비교적으로 많이 사용되는 Vector와 LabeledPoint에 대해알아보도록 하겠습니다. 먼저 MLlib를 사용하기 위해서는 의존성 설정을 진행해야합니다. pom.xml파일을 열어서 org.apache.spark spark-mllib_2.11 2.3.0 해당 부분으로 변경해주시면 됩니다. [ Vector ] 프로그램에서 Double Type의 값을 포함하는 컬렉션으로 구현되며, Vector에 포함된 각각의 Data는 정의된 순서에 0부터 시작하는 정수형 인덱스를 부여받습니다. Spark MLlib의 Vector는 org.apache.spark.ml.linalg 패키지에서.. 2021. 9. 23.
[We-Co] Spark MLlib 안녕하세요. 위기의코딩맨입니다. 오늘은 드디어 Spark MLlib에 대해 알아보도록 하겠습니다. 너무 공부해보고 싶던 부분이라 기대됩니다.. [ MLlib ] 이름 그대로 Spark에서 제공하는 머신러닝을 위한 라이브러리라고 생각하시면 됩니다. 빅데이터를 활용하여 성공하는 기업들이 점차 늘어가면서 이를 활용한 머신러닝, 딥러닝도 같이 인기가 늘어나고 있습니다. 빅데이터의 시작은 하둡으로 시작되었으며, 하둡이 발전해나가면 스파크의 존재도 부각시키는 효과를 가져왔습니다. Spark [We-Co] Apache Spark 안녕하세요. 위기의코딩맨 입니다. 요즘 데이터의 중요성이 많이 오르고 있습니다! 빅데이터는 이제 많은 사업에도 사용되고 있습니다. 그래서 오늘은 이러한 빅데이터를 처리하기위한 Apache S.. 2021. 9. 22.
[We-Co] Structured Streaming - Spark 안녕하세요. 위기의코딩맨 입니다. 오늘은 Structured Streaming에 대해 아주 간단하게 알아보도록 하겠습니다! Spark Streaming에 대해 먼저 알아보고 보시면 좋을것 같습니다. Spark Streaming [We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정 we-co.tistory.com [ Structured Streaming ] 먼저 Streaming의 의미를 알아보면 시간의 흐름에 지속적으로 생성되는 Data의 의미를 갖고있습니다. 이렇게 지속적으.. 2021. 9. 22.
[We-Co] Spark Streaming 안녕하세요. 오늘은 Spark Streaming에 대해서 간단하게 알아보도록 하겠습니다. [ Spark Streaming ] 지금까지 공부해온 Spark는 주어진 데이터를 읽고 처리하는 과정을 보여줬는데 Spark Streaming은 이 과정을 포함하고, 시간의 흐름에 따른 변화하는 데이터를 다루는 과정도 포함됩니다. 시간의 흐름의 변화라는 것은 과거에 해당하는 고정된 데이터를 사용하는 것이 아닌 현재와 미래에 생성되는 지속적으로 변화하는 데이터를 의미합니다. 많은 데이터 처리 방식은 일상적으로 배치처리를 진행합니다. 배치처리를 진행하는 작업들의 특징은 데이터 크기가 크고, 작업 시간도 오래걸리며, 작업 도중 에러를 반환하더라도 재작업을 통한 동일한 결과물이 아웃풋으로 나와야하는 경우가 많습니다. 배치 .. 2021. 9. 16.
[We-Co] Spark to_json(), from_json() 안녕하세요. 위기의코딩맨입니다. 오늘은 스ㅏ크 2.1.0 이후 버전부터 to_json(), from_json()을 이용하여 Column에서 json 문자열로 처리할 수 있도록 되었습니다. [ to_json() ] scala> val r1 = ("S2","note",20,2000) scala> val r2 = ("S2","bag",10,5000) scala> val df = List(r1,r2).toDF("store_nm","prod_nm","amount", "price") scala> df.show +--------+-------+------+-----+ |store_nm|prod_nm|amount|price| +--------+-------+------+-----+ | S2| note| 20| 2000.. 2021. 9. 15.
[We-Co] Spark SQL API 메서드(3) 안녕하세요. 위기의 코딩맨입니다. 오늘은 Spark SQL API 메서드(3) 번째 작성을 진행해보겠습니다. Spark SQL API 메서드(2) [We-Co] Spark SQL API 메서드(2) 안녕하세요. 위기의코딩맨입니다. 오늘은 API 메서드(2)로 API의 연산자를 더 알아보도록 하겠습니다. Spark SQL API(1) [We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메 we-co.tistory.com [ intersect(), except() ] 2개의 Dataframe에서 모두 속하는 인자들만 구성된 Dataframe을 생성하는 메서드입니다. scala> val a = spark.range(1,5) a: org.apache.spark.sq.. 2021. 9. 14.
[We-Co] Spark SQL API 메서드(2) 안녕하세요. 위기의코딩맨입니다. 오늘은 API 메서드(2)로 API의 연산자를 더 알아보도록 하겠습니다. Spark SQL API(1) [We-Co] Spark SQL API 메서드(1) 안녕하세요. 위기의코딩맨입니다. 비타입 트랜스포메이션 연산은 데이터의 실제 타입을 사용하지 않은 변환 연산을 수행한다는 의미를 갖고있습니다. Spark에서 비타입 트랜스포메이션 연산을 we-co.tistory.com [ grouping(), grouping_id() ] Dataframe이 제공하는 연산 중, 소계를 구해주는 역할을 진행합니다. group으로 묶어서 해당 결과를 보여주는 역할을 하는데 예제로 설명해드리겠습니다. scala> case class Test(store: String, product: String.. 2021. 9. 13.
반응형