[R] 자주 사용하는 함수 - NA, 정렬, 그룹

안녕하세요. 위기의코딩맨입니다.

오늘은 시각화 작업을 진행하면서 자주 사용됐던 명령어를 한번 설명드리도록 하겠습니다.

저는 가장 많이 사용된게 NA 제외하는 방법(Null제외)과 어떠한 컬럼값 기준으로 정렬하는 방법, 그룹을 정하는 방법

3가지를 가장 많이 사용했던것 같습니다.

해당 방법을 천천히 알아보도록 하겠습니다.

[ NA 제외 ]

먼저 NA 값을 제외하는 방법을 알아보도록 하겠습니다.

기본적으로 시각화를 진행하거나 평균을 설정할때,

NA,이상치 값은 다양한 영향을 끼칩니다.

그래서 제외를 하거나 값을 변경해주는데 그 중, 제외하는 방법을 알아보도록 하겠습니다.

기본 예제 데이터프레임을 만들어서 출력해보면 아래 처럼 2번항목에 NA가 포함되어있는것을 확인할 수 있습니다.

dataF <- data.frame(a = c(1,2,3), b= c(4,NA,6), c=c(7,8,9))

아래 na.omit 함수를 사용해서 NA 값을 제외한 데이터 프레임을 생성해서 출력해보았습니다.

Not_NA_dataF <- na.omit(dataF)

이제 정렬하는 방법에 대해서 설명드리도록 하겠습니다.

R의 mtcars 내장된 데이터로 예제를 보여드리도록 하겠습니다.

정렬하지 않은 데이터를 그냥 출력해보도록 하겠습니다. 잘들어있군..

View(mtcars)

dplyr 라이브러리를 이용해서

%>% 를 통해서 조건을 주고 기준 컬럼을 desc(내림차순), asc(올림차순)으로 정렬을 진행할 수 있습니다.

저는 disp를 내림차순으로 정렬해보도록 하겠습니다.

정렬된 데이터가 출력 된것을 확인할 수 있습니다.

library(dplyr)
mtcar_data <- mtcars %>% arrange(desc(disp))

마지막으로 그룹을 설정하는 부분입니다.

마찬가지로 내장된 데이터로 예제를 보도록 하겠습니다.

CO2 데이터로 진행해보도록 하겠습니다.

만약 여기서 Qn1, An2... 등의 개수를 구하고 싶을땐 어떻게해야할까요?!

group_by를 사용해서 해당 컬럼을 묶고, 그 개수를 구하면 됩니다.

각각 7개씩 묶여있는것을 확인할 수 있습니다.

data_f <- CO2 %>%
    group_by(Plant) %>% summarise(Count = n(), .groups = 'drop')

오늘은 지금까지 R을 사용하면서 자주 사용되던 함수나

라이브러리에 대해서 알아보았습니다.

아직 배우는 극초반 부분이지만, 계속 배워나가봅시다!

[R] wordcloud2 - 글자로 데이터를 표현해보자! (0)	2024.03.27
[R] symbols() - 심볼 그래프를 활용해서 데이터를 시각화해보자! (0)	2024.03.18
[R] pie() - 파이 차트를 활용해보자! (0)	2024.03.14
[R] hist() - 히스토그램을 활용해보자! (0)	2024.03.13
[R] dotchart() - 점표도를 활용하여 데이터를 시각화해보자! (2)	2024.03.12