본문 바로가기
Data Science/R

[R] 데이터 확인 및 간단한 시각화

by AI_Wooah 2022. 2. 21.

1. R 패키지

- R패키지는 특정한 목적 및 분석을 위해 개발된 코드, 데이터, 함수 등의 집합체이며 다양한 기능을 포함하고 있다.

- R에서 사용 가능한 9000개 이상의 수많은 패키지가 개발되었고 패키지를 통한 기능성 확장을 할 수 있다는 장점이 있다.

1.1 패키지 다운로드 받는 방법

패키지 탭을 클릭하여 쉽게 다운받을 수 있는 패키지 목록을 확인할 수 있다.  

install 버튼을 누르면 아래와 같은 창이 뜬다.

인스톨 받아올 곳과 설치될 장소를 확인하고 설정할 수 있다.

우리가 모르는 사이에 아무 패키지나 다운되지 않게 조심해야 한다.

ggplot2 패키지를 다운받기 위해서 packages에 ggplot2라고 적고 인스톨을 누른다.

이 때 자동완성도 돼서 편리하다.

설치를 시작할지 묻는 질문에  y를 누르면 설치가 시작된다.

설치가 잘 되고 있는지는 콘솔창에 나타나는 구문으로 확인할 수 있다.

설치가 완료되면 아래와 같은 메세지가 뜬다.

 

1.2 작업 경로 설정

아래 캡쳐와 같이 파일 탭>...(Go to directory) 버튼을 누르면 폴더를 찾아볼 수 있는 창이 열린다.

원하는 폴더를 만들어 지정해줄 수 있다.

 

2. R 패키지의 종류

- Base

- Recommended

- Add-on

 

3. 데이터 불러오기

- R에서 불러올 수 있는 데이터 유형은  DB, 텍스트, 엑셀, 크롤링 등 다양하다.

 

3.1  txt 데이터 불러오기

Environment> Import Dataset > From Text(base)를 눌러 파일을 다운받아놓은 폴더에서 데이터를 불러올 수 있다.

불러온 데이터를 아래 사진처럼 확인할 수 있다.

 

3.2 내장 데이터 불러오기

콘솔에서 간단하게 아래 함수를 입력해주면  내장 데이터인 iris를 확인할 수 있다.

head(iris)

- head() 함수는 데이터의 맨 윗줄부터 6줄을 보여주는 기능이다.

 

- str() 함수는 structure 의 줄임으로 구조를 파악할 수 있다.

타입은 data.frame이며 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species 총 5개의 컬럼으로 이뤄져 있다. 

 

- summary() 함수는 각 컬럼에 들어있는 데이터의 최대값 최소값 평균값 중앙값 등을 계산해준다.

 

- ggplot을 활용하여 iris 데이터를 시각화 할 수 있다.

# ggplot을 활용한 iris 데이터 시각화
library(ggplot2)
ggplot(iris, aes(Sepal.Length, Sepal.Width))+
  geom_point(aes(colour = Species, size=Petal.Width), alpha= (0.7))+theme_bw()

 

반응형

댓글