여기에서는 R에서 제공하는 ISLR 라이브러리를 사용해서 간단한 기술통계를 도출해 보겠습니다.
1. ISLR 라이브러리를 불러옵니다.
library(ISLR)
2. ISLR 라이브러리에는 Auto라는 데이터 샘플이 있습니다.
- Auto를 불러와서 myData라는 데이터를 만들어 줍니다. Auto는 9개의 변수, 392개 관측값으로 구성된 데이터입니다.
- names function을 사용해서 변수명을 확인합니다. myData는 "mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration" , "year" , "origin" , "name" 변수로 구성되어 있음을 확인했습니다.
myData <- Auto
names(myData)
3. myData의 변수별 기초통계는 summary 함수를 통해 확인할 수 있습니다.
summary(myData)
4. 데이터 프레임에 속한 모든 변수가 아니라 특정 변수의 기술통계도 확인할 수 있습니다.
- summary function을 사용하되 보고싶은 변수를 특정하여 명시해 줍니다.
- 변수는 $를 사용하여 특정할 수 있고, 예컨대 mpg 변수의 값을 보고 싶으면 myData$mpg라고 명시합니다.
summary(myData$mpg)
5. myData 데이터의 기술통계는 stargazer 라이브러리를 사용하면 쉽게 확인할 수 있습니다.
- 먼저 stargazer 패키지를 설치합니다.
- stargazer 라이브러리를 로드한 후에
- stargazer 함수를 사용하여 myData의 기술통계를 요청합니다.
- 표현된 기술통계는 관측개수, 평균, 표준편차, 최솟값, 최댓값 입니다.
install.packages("stargazer")
library(stargazer)
stargazer(myData, type="text")
6. 히스토그램 그리기
- 이번에는 myData의 그래프를 그려보겠습니다.
- myData의 변수 중 mpg 변수의 히스토그램을 그려봅니다.
hist(myData$mpg)
7. 히스토그램 제목 작성
- 히스토그램에 제목을 붙일 수 있습닏.
- hist function의 옵션을 확인하면 제목을 비롯해 다양하게 그래프를 변경할 수 있습니다.
- 패키지의 옵션은 구글에 "R hist" 등을 통해 검색하면 확인할 수 있습니다.
hist(myData$mpg, main = "자동차 MPG 분포", xlab = "mpg")
8. boxplot 그리기
- 이번에는 데이터의 boxplot을 그려보겠습니다.
- 제목은 "MPG 상자그림"으로 하고, y축 이름은 "mile/gal."로 설정하겠습니다.
boxplot(myData$mpg, main = "MPG 상자그림", ylab = "mile/gal.")
9. 산포도 그리기
- 이번에는 산포도를 한번 그려볼까요?
- myData의 mpg, weight 변수를 각각 x, y 축으로 하는 산포도를 그려보겠습니다.
- 제목은 "자동차 무게와 MPG의 관계", x축 이름은 "연료소비량(Mile/Gal.)", y축 이름은 "자동차 무게(lb)"로 합니다.
- 아래 샘플에서 보이는 pch는 점의 종류, col은 점의 색, cex는 점의 크기를 의미합니다.
plot(myData$mpg, myData$weight, main = "자동차 무게와 MPG의 관계",
xlab = "연료소비량(Mile/Gal.)", ylab = "자동차 무게(lb)",
pch = 20, col="blue", cex = 0.5)
'R' 카테고리의 다른 글
[R] 데이터 처리 (1) | 2023.10.03 |
---|---|
[R] 데이터 처리 - 변수 변환 (0) | 2023.09.22 |
[R] 데이터 관리 (0) | 2023.09.18 |
[R] 기초 (0) | 2023.09.17 |
[R] 설치하기 (0) | 2023.01.12 |
댓글