We-Co

[R] boxplot() - 박스 플롯을 사용해보자! 본문

R

[R] boxplot() - 박스 플롯을 사용해보자!

위기의코딩맨 2024. 3. 8. 12:23
반응형

안녕하세요. 위기의코딩맨입니다.

이번 시간에는 boxplot에 대해서 간단하게 설명드리도록 하겠습니다.

 

상자 수염 그림이라고도 표현하고, 수치적 자료를 나타내는데 탁월한 그래프입니다.

5가지 요약 수치  최솟값, 1사분위, 2사분위, 3사분위, 최댓값를 나타내고

수치적 데이터를 표현할 때, 자주 사용되는 그래프중 하나입니다.

요상하게 생겼지요?

막대, 원형 그래프와는 조금 익숙하지 않지만

친해져보도록 하겠습니다.

 

[ boxplot() ]

바로 사용해보도록 하겠습니다.

난수를 생성해서 x에 데이터를 넣고 boxplot함수에 전달해보았습니다.

A <- runif(20)
B <- runif(20)
C<- runif(20)
D<- runif(20)
E<- runif(20)
 
x <- list(A,B,C,D,E)
boxplot(x)

 

다른 옵션을 추가해볼까요~?

타이틀을 수정하고, varwidth를 설정하여,

관측치의 제곱근의 비례한 값으로 그래프의 폭을 조절했습니다.

그리고 제목을 설정했습니다.

boxplot(x, varwidth = T, width = 5:1)

title(main='varwidth = T, width = 5:1')

 

 

이제 R에서 내장된 데이터를 상용해서 한번 표현해보도록 하겠습니다.

mtcars 데이터는 미국 자동차 잡지에 실린 자동차 연비, 실린더, 마력 데이터를 포함하고있는 내장데이터 입니다.

그 중, 마력데이터를 가져와서 박스플롯에 적용하고, 이름, y 타이틀, 수평방향, 색상을 설정했습니다.

data(mtcars)

boxplot(mtcars$hp, main="HP Boxplot", ylab="Horse Power", horizontal = TRUE, col = 'pink')

만들이진 박스플롯을보니 300이 넘어가는 이상치가 존재하나봅니다. 확인해볼까요?

335 값이 존재하는 것을 확인할 수 있습니다.

이러한 값들의 존재를 확인하고 어떠한 값으로 변경할지, 또는 사용할지 결정해서 평균, 합산 등을 진행하기도 합니다.

 

오늘은 boxplot에 대해서 간단하게 알아보았고

사용하는 방법도 알아보았습니다.

앞으로 더 많은 시각화를 진행해보도록  하겠습니다.

반응형