1. R 패키지
- R패키지는 특정한 목적 및 분석을 위해 개발된 코드, 데이터, 함수 등의 집합체이며 다양한 기능을 포함하고 있다.
- R에서 사용 가능한 9000개 이상의 수많은 패키지가 개발되었고 패키지를 통한 기능성 확장을 할 수 있다는 장점이 있다.
1.1 패키지 다운로드 받는 방법
패키지 탭을 클릭하여 쉽게 다운받을 수 있는 패키지 목록을 확인할 수 있다.
install 버튼을 누르면 아래와 같은 창이 뜬다.
인스톨 받아올 곳과 설치될 장소를 확인하고 설정할 수 있다.
우리가 모르는 사이에 아무 패키지나 다운되지 않게 조심해야 한다.
ggplot2 패키지를 다운받기 위해서 packages에 ggplot2라고 적고 인스톨을 누른다.
이 때 자동완성도 돼서 편리하다.
설치를 시작할지 묻는 질문에 y를 누르면 설치가 시작된다.
설치가 잘 되고 있는지는 콘솔창에 나타나는 구문으로 확인할 수 있다.
설치가 완료되면 아래와 같은 메세지가 뜬다.
1.2 작업 경로 설정
아래 캡쳐와 같이 파일 탭>...(Go to directory) 버튼을 누르면 폴더를 찾아볼 수 있는 창이 열린다.
원하는 폴더를 만들어 지정해줄 수 있다.
2. R 패키지의 종류
- Base
- Recommended
- Add-on
3. 데이터 불러오기
- R에서 불러올 수 있는 데이터 유형은 DB, 텍스트, 엑셀, 크롤링 등 다양하다.
3.1 txt 데이터 불러오기
Environment> Import Dataset > From Text(base)를 눌러 파일을 다운받아놓은 폴더에서 데이터를 불러올 수 있다.
불러온 데이터를 아래 사진처럼 확인할 수 있다.
3.2 내장 데이터 불러오기
콘솔에서 간단하게 아래 함수를 입력해주면 내장 데이터인 iris를 확인할 수 있다.
head(iris)
- head() 함수는 데이터의 맨 윗줄부터 6줄을 보여주는 기능이다.
- str() 함수는 structure 의 줄임으로 구조를 파악할 수 있다.
타입은 data.frame이며 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species 총 5개의 컬럼으로 이뤄져 있다.
- summary() 함수는 각 컬럼에 들어있는 데이터의 최대값 최소값 평균값 중앙값 등을 계산해준다.
- ggplot을 활용하여 iris 데이터를 시각화 할 수 있다.
# ggplot을 활용한 iris 데이터 시각화
library(ggplot2)
ggplot(iris, aes(Sepal.Length, Sepal.Width))+
geom_point(aes(colour = Species, size=Petal.Width), alpha= (0.7))+theme_bw()
'Data Science > R' 카테고리의 다른 글
[R] 연관성 분석을 위한 데이터 전처리 (0) | 2022.03.01 |
---|---|
[R] 소비 패턴 분석 및 프로파일링 (0) | 2022.03.01 |
[R] 데이터 변수 추출 및 기본 함수 (0) | 2022.03.01 |
[R] R 기본 문법 및 객체 생성 (0) | 2022.02.03 |
[R] R과 R Studio (0) | 2022.02.03 |
댓글