본문 바로가기
Data Science/Regression Analysis

[Regression] 회귀모형의 평가 분산분석(ANOVA)

by AI_Wooah 2022. 3. 11.

기본적인 오차제곱의 이해

 

 

분산분석표에 의한 F-검정

분산분석표는 변동을 분해한 표다.


결정계수 $R^2$는 총제곱합 중에서 회귀 제곱합이 차지하는 비중에 대한 설명이다.

종속변수 관련 값
$\hat{Y}$ 예측된 종속변수의 값
$\bar{Y}$ 예측된 종속변수들의 평균값
$Y_i$ 실제 관측치
적합도 검정($R^2$을 계산)을 위한 값
총편차 $Y_i-\bar{Y}$ 총제곱합(SST) $\sum{(Y_i-\bar{Y})^2}$
설명되는 편차 $\hat{Y}-\bar{Y}$ 회귀 제곱합(SSR) $\sum{(\hat{Y}-\bar{Y})^2}$ 
설명되지 않는 편차 $Y_i-\hat{Y}$ 오차 제곱합(SSE) $\sum{(Y_i-\hat{Y})^2}$ 
설명력을 나타내는 결정계수 : $R^2$ 계산
$SST = SSE + SSR \rightarrow \frac{SSR}{SST}=1-\frac{SSE}{SST}$

 

$\sum(Y_i - \overline{Y})^2 = \sum(\hat{Y_i} - \overline{Y})^2 + \sum(Y_i - \hat{Y_i})^2$

$SST = SSR + SSE$

총제곱합 = 회귀제곱합 + 잔차제곱합

total sum of squares = residual sum of squares + explained sum of squares

자유도 $(n-1) = (n-2) + 1

변동의 분해는 분산의 총제곱합을 회귀, 잔차의 제곱합으로 분해하고 이러한 제곱합은 항상 자유도를 갖게 된다.

총제곱합의 자유도는 총 데이터수에서 평균에 대한 1을 뺀 것이다.

잔차제곱합의 자유도는 n-2

회귀제곱합의 자유도는 독립변수 1이다.

 

이런 변동에 대한 분해를 정리한 것을 분산분석표라고 한다.

<단순회귀의 분산분석표>

이 회귀모형이 유의한지 설명력이 얼마나 되는지를 알 수 있다.

요인
자유도
(Degree of Freedom) 
제곱합
(SS, Sum of Square) 
제곱평균
(MS, Mean of Square) 
$F_0$-통계량
(F-Value) 
P-값 
(P-Value) 
회귀 (Regression)  1 회귀제곱합 (SSR)

 회귀제곱평균 (MSR)
MSR = SSR / k
F비
MSR / MSE
 F-통계량의 유의확률
(F분포표)
 잔차 (Error) n - 2 잔차제곱합 (SSE)

 잔차제곱평균 (MSE)
MSE = SSE / (n - 2)
   
총 (Total)   n - 1  총제곱합 (SST)
SSR + SSE
 총제곱평균 (MST)
MST = SST / (n - 1)
   

제곱합을 자유도로 나눠준 것을 평균제곱이라 한다.

 

- 가설검정

$H_0 : \beta _1 = 0$

$H_1 : \beta _1 != 0$

 

- 검정통계량

$F_0 = \frac{MSR}{MSE}$

검정통계량 $F_0$은 회귀의 평균제곱을 잔차의 평균제곱으로 나눈 것이다.

 

- 검정방법

$F_0 > F(1, n -2; \alpha)$ 이면 귀무가설을 기각하고 추정한 회귀직선이 유의하다고 할 수 있다. 

위의 분산분석표에 의한 검정통계량을 가설검정에 기각역으로 사용할 수 있다.

 

p값을 제공해주는데 유의확률 p값이 작을수록 가설을 기각할 수 있다.

 

- R에서는 검정통계량 $F_0$에 대한 유의확률 p-값이 제공된다.

"p-값 < 유의확률 $\alpha$"면 귀무가설을 기각한다.

> market.lm = lm(Y ~ X, data=market)
> anova(market.lm)
Analysis of Variance Table

Response: Y
          Df  Sum Sq Mean Sq F value    Pr(>F)    
X          1 313.043  313.04   45.24 0.0001487 ***
Residuals  8  55.357    6.92                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

분산분석 결과를 해석하면 $p-값=1.487*10^{-9}$ 로 매우 작은 값이므로 $H_0 : \beta _1 = 0$을 기각

Df :  자유도

Sum Sq : 제곱합

Mean Sq : 평균제곱

Pr : 유의확률

 

 

결정계수

추정된 회귀선이 얼마나 설명력이 있는지 알기 위해 수치로 나타내서 얼만큼 있는지 상대적으로 비교해볼수 있다.

결정계수(coefficient of determination)는 총변동중에서 추정된 회귀선이 설명할 수 있는 비율을 나타내는 것이며, 회귀선의 기여율이라고 부르기도 한다

 

$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$

 

$R^2$의 범위는 $0 \leqq R^2 \leqq 1$ 이다.

 

결정계수 값은 0에서 1사이에 있으며 X와 Y 사이에 높은 상관관계가 있을수록 $ 값은 1에 가까워진다.

$ 값이 1에 가까워질수록 설명력이 높은 회귀선이다.

> market.lm = lm(Y ~ X, data=market)
> anova(market.lm)
Analysis of Variance Table

Response: Y
          Df  Sum Sq Mean Sq F value    Pr(>F)    
X          1 313.043  313.04   45.24 0.0001487 ***
Residuals  8  55.357    6.92                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

$=> R^2=313.043/(313.043+55.357)=0.8497$

이는 총변동 중에서 회귀직선에 의해 설명되는 부분이 84%라는 의미다.

추정된 회귀선의 정도가 높지 않다는 것을 알 수 있다.

결정계수는 값이 클수록 유리하다

 

추정값의 표준오차

$σ^2$ : 오차분산

$

 

위의 분산분석표에서 잔차평균제곱 MSE는 오차분산 $\sigma^2$ 의 불편추정량이 된다.

따라서 MSE의 제곱근을 추정값의 표준오차(Standard Error of Estimate)이라고 부른다.

$S_{Y*X} = \sqrt{MSE}$

추정값의 표준오차는 주로 두 모형의 비교에서 더 작은 값을 가진 모형이 주어진 자료에 더 적합하다는 의미로 이용된다.

 

> market.lm = lm(Y ~ X, data=market)
> summary(market.lm)

Call:
lm(formula = Y ~ X, data = market)

Residuals:
   Min     1Q Median     3Q    Max 
-3.600 -1.502  0.813  1.128  4.617 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -2.2696     3.2123  -0.707 0.499926    
X             2.6087     0.3878   6.726 0.000149 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.631 on 8 degrees of freedom
Multiple R-squared:  0.8497,	Adjusted R-squared:  0.831 
F-statistic: 45.24 on 1 and 8 DF,  p-value: 0.0001487
> anova(market.lm)
Analysis of Variance Table

Response: Y
          Df  Sum Sq Mean Sq F value    Pr(>F)    
X          1 313.043  313.04   45.24 0.0001487 ***
Residuals  8  55.357    6.92                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

=> $S_{Y*X} = \sqrt{MSE} = \sqrt{6.92} = 2.63$

 

단순회귀모형에서 상관계수와 결정계수의 관계

- 상관계수

두 연속인 변수 간의 선형관계(linear relationship)가 어느 정도인가를 재는 측도다.

$\begin{align} r &= \frac{\sum(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum(X_i - \overline{X})^2\sum(Y_i - \overline{Y})^2}} &= \frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}} \end{align}$

단순회귀모형에서 상관계수 r과 결정계수의 관계는 아래와 같다.

$r = \pm \sqrt{R^2}$

만약 추정된 회귀선의 기울기 $b_1$이 양이면 $r = \sqrt{R^2}$ 이므로 양의 상관계수를 갖고

만약 추정된 회귀선의 기울기 $b_1$이 음이면 $r = - \sqrt{R^2}$이므로 음의 상관계수를 갖는다.

 

 

 

 

 

 

 

 

반응형

댓글