본문 바로가기
Data Science/Regression Analysis

[Regression] 단순회귀모형

by AI_Wooah 2022. 3. 9.

회귀는 분류와 비슷하게 입력 데이터를 출력으로 맵핑하는 함수를 찾는 것이나 차이로는 실수 형태라는 특징이 있다. 회귀의 학습 결과는 회귀함수(regression functio)로 그린다. 학습 목표는 예측 오류인 회귀 오차를 최소화하는 최적의 회귀함수를 찾는 것이다. 함수는 출력값 사이의 오차를 제곱한 것을 최소로 하는 파라미터를 구한다.

회귀 시스템은 입출력 쌍의 데이터를 통해 관계를 설명하는 선형 모델을 찾는 선형회귀와 선형회귀분석의 출력을 범주형으로 제한해서 분류문제에 적용하는 로지스틱 회귀가 있다.

 

단순회귀모형

1) 산점도(scatterplot)

한 변수를 x축으로 놓고, 다른 한 변수를 y축으로 그린 그림으로서, 두 연속인 변수들 간의 관계를 밝힐 때 자주 사용된다.

 

2) 단순 회귀 모형 test

> market = market.1
> head(market)
NUMBER X Y
1 1 4 9
2 2 8 20
3 3 9 22
4 4 8 15
5 5 8 17
6 6 12 30
> plot(market$X, market$Y, xlab="advertisement fee", ylab="total sales", pch=19)
> title("Scatterplot of Advertising Fees and Sales")

광고료가 증가하면 총 판매액도 증가하며 그 관계는 비례하여 직선으로 커지는 것을 확인할 수 있다.

+ plot에 바로 붙여서 쓰려면 attach() 함수를 사용하면 된다.

 

3) 단순 회귀식

$Y_i = \beta_0 + \beta_1X_i + \epsilon_i$

  • \(Y_{i}\) = i번째 측정된 종속변수 Y의 값 
  • \(\beta_0\) = 절편 회귀계수
  • $\beta_{1}$ = 기울기 회귀계수
  • = i번째 주어진 상수 X값
  • $\epsilon_i$ : i번째 측정된 Y의 오차항으로 평균 $E(\epsilon_i) = 0$,
    분산 $Var(\epsilon_i) = \sigma^2$이면서, 다른 오차항과는 상관관계가 없는 것으로 가정

 

4) 단순 회귀식의 증명

 

5) 대체 모형(alternative model)

$\begin{align} Y_i &= B_0 + B_1X_i + \epsilon_i \\&= (B_0 + B_1\overline{X}) + B_1(X_i - \overline{X}) + \epsilon_i \\&= B^\star_0 + B_1(X_i - \overline{X}) + \epsilon_i \end{align}$

 

$\beta_0 + \beta_1\overline{X}$ 를 $\beta^\star_0$ 로 대치시킨 것이다.

대체모형은 설명변수로써 $X_i$ 대신 $(X_i - \overline{X})$를 사용하는 경우다.

 

반응형

댓글