본문 바로가기

Data Science/Regression Analysis8

[Regression] 표준화된 중회귀분석 1. 표준화된 중회귀분석 1) 변수 표준화 단위가 다르면 어떤 변수가 더 많은 영향을 미치는지 알 수 없다. 이런 변수들은 단위의 영향을 받지 않도록 표준화가 필요하다. 위의 중회귀모형에 종속변수와 독립변수를 변수 변환한다. 이와 같이 변수를 표준화해서 회귀모형을 하게 된다. 2) 표준화된 회귀모형 - 표준화된 중회귀모형 표준화된 회귀모형의 절편값은 항상 0이 되기 때문에 절편값이 없다. 표준화된 중회귀모형에서 추정된 회귀계수 $a_i$의 절대값이 클수록 설명변수 $X_i$가 반응변수 $Y_i$에 주는 영향이 커진다. - R을 활용한 표준화 회귀모형 > install.packages("lm.beta") trying URL 'https://cran.rstudio.com/bin/macosx/el-capita.. 2022. 4. 1.
[Regression] 중회귀모형 1. 중회귀모형이란? 반응변수에 영향을 미치는 변수가 여러개가 있을 때 종속변수의 변화를 설명하기 위해서 두 개 이상의 독립변수가 사용되는 선형회귀모형을 중선형회귀(Multiple Linear Regression Model) 또는 중회귀모형(Multipl Regression Model)이라고 부른다. - 독립변수 갯수가 k개인 중회귀모형 2. 행렬을 이용한 중회귀모형 1) 중회귀모형에서 독립변수가 2개인 경우 아래 식을 따르지 않는 오차항일 경우 n개의 오차는 서로 독립이고 평균이 0이고 분산이 σ2인 정규분포를 따른다고 가정할 수 있다. 이 때 행렬을 이용해서 구하면 편하다. 2) 벡터 표현 중회귀모형을 벡터로 표현하게 되면 계수벡터와 행벡터의 곱으로 표현할 수 있다. 3) 중회귀모형의 행렬 표현 벡.. 2022. 3. 31.
[Regression] 가중회귀 1. 가중회귀란? 잔차의 분산이 일정하지 않아서 최소제곱법 가정을 사용할 수 없는 경우에 가중회귀를 사용한다. 가중치를 적절하게 부여하여 가중된 잔차 제곱합을 최소화함으로써 분산이 일정한 잔차를 만들어낼 수 있다. 2. 가중회귀분석 평균이 0이고 분산이 σ2인 정규분포라고 가정했을 때 이 오차항의 분산이 오차항마다 다른 경우 이럴 때 가중최소제곱법을 사용하여 가중값을 제곱하여 적합시킨다. > x = c(1, 2, 3, 4, 5) > y = c(2, 3, 5, 8, 7) > w = 1/x > # 가중치를 w로 한 가중회귀모형을 적합시키기 > w.lm = lm(y ~ x, weights=w) > summary(w.lm) Call: lm(formula = y ~ x, weights = w) Weighted R.. 2022. 3. 31.
[Regression] 회귀계수의 신뢰구간 및 검정 방법 1. 단순회귀의 추정과 검정 기울기에 대한 추정값 $b_1$과 절편에 대한 추정값 $b_0$을 이용해 구간추정과 가설검정을 한다. 정규분포를 따른다고 가정할 수 있다. 따라서 관측되는 값들이 전부 회귀선과 가까이 있다면 분산의 추정값은 작아진다. 2. $\beta_1$의 신뢰구간 - 회귀계수 기울기 $\beta_1$의 추정량 - 기댓값, 분산 - $\sigma^2$의 추정값은 MSE에 의하여 구해짐 - $b_1$의 분산에 대한 추정값 - $\beta_1$의 신뢰계수 100(1-$\alpha$)% 신뢰구간 - 절편 $\beta_0$의 추정량 - 기댓값 및 분산 - $\beta_0$의 100(1-$\alpha$)%의 신뢰구간 3. R 결과에서 $\beta_1$과 $\beta_0$ 신뢰구간 구하기 > mark.. 2022. 3. 30.
[Regression] 회귀모형의 평가 분산분석(ANOVA) 기본적인 오차제곱의 이해 분산분석표에 의한 F-검정 분산분석표는 변동을 분해한 표다. 결정계수 $R^2$는 총제곱합 중에서 회귀 제곱합이 차지하는 비중에 대한 설명이다. 종속변수 관련 값 $\hat{Y}$ 예측된 종속변수의 값 $\bar{Y}$ 예측된 종속변수들의 평균값 $Y_i$ 실제 관측치 적합도 검정($R^2$을 계산)을 위한 값 총편차 $Y_i-\bar{Y}$ 총제곱합(SST) $\sum{(Y_i-\bar{Y})^2}$ 설명되는 편차 $\hat{Y}-\bar{Y}$ 회귀 제곱합(SSR) $\sum{(\hat{Y}-\bar{Y})^2}$ 설명되지 않는 편차 $Y_i-\hat{Y}$ 오차 제곱합(SSE) $\sum{(Y_i-\hat{Y})^2}$ 설명력을 나타내는 결정계수 : $R^2$ 계산 $SST.. 2022. 3. 11.
[Regression] 회귀선의 추정 회귀선의 추정 1) 회귀선 회귀선은 표본자료(Sample data)로부터 모형식을 추정하여 얻은 직선으로 아래와 같은 공식을 가진다. $\hat{Y} = b_0 + b_1X$ $b_0$, $b_1$은 각각 $\beta_0, \beta_1$ 의 추정값 $\hat{Y}$ 은 주어진 X에서의 기댓값 $E(Y)$ 의 추정값 $b_0$ 는 $X = $ 일 때, $\hat{Y}$ 의 값으로 추정된 회귀절편(intercept) $b_1$ 는 X가 한 단위가 증가할 때에 $\hat{Y}$ 의 증가량 => 기울기(slope) $\hat{Y_1} = b_0 + b_1(X+1)$ 이면 $b_0 + b_1X + b_1$으로 $b_1$이 증가한다. 2) 최소제곱법(Method of Least Squares) 회귀계수 $b_0$.. 2022. 3. 9.
[Regression] 단순회귀모형 회귀는 분류와 비슷하게 입력 데이터를 출력으로 맵핑하는 함수를 찾는 것이나 차이로는 실수 형태라는 특징이 있다. 회귀의 학습 결과는 회귀함수(regression functio)로 그린다. 학습 목표는 예측 오류인 회귀 오차를 최소화하는 최적의 회귀함수를 찾는 것이다. 함수는 출력값 사이의 오차를 제곱한 것을 최소로 하는 파라미터를 구한다. 회귀 시스템은 입출력 쌍의 데이터를 통해 관계를 설명하는 선형 모델을 찾는 선형회귀와 선형회귀분석의 출력을 범주형으로 제한해서 분류문제에 적용하는 로지스틱 회귀가 있다. 단순회귀모형 1) 산점도(scatterplot) 한 변수를 x축으로 놓고, 다른 한 변수를 y축으로 그린 그림으로서, 두 연속인 변수들 간의 관계를 밝힐 때 자주 사용된다. 2) 단순 회귀 모형 tes.. 2022. 3. 9.
[Regression] 회귀분석이란? 1. 회귀분석이란? 독립변수들과 종속변수 간의 함수관계를 규명하는 통계적인 분석방법이다. 회귀(regression)란 “본래의 자기 자리로 돌아온다"라는 뜻이다. 완두콩 시험에서 부모콩의 무게를 x축으로, 자식콩의 무게를 y축으로 산점도를 그려 두 세대간의 관계를 살펴보고 이들의 관계식은 양의 직선관계이나, 기울기는 1보다 작아서 자식의 무게는 평균 무게로 회귀하려는 경향이 있다는 사실을 발견하고 이를 회귀로 명명했다. Pearson이 계량적으로 처음 발표했다. 예를 들어 한 나라에서 국민소득이 증가하면 자동차 보유 대수가 증가한다. 이 경우, 국민소득은 독립변수, 자동차 보유대수는 종속변수가 된다. 2. 회귀분석 관련 변수의 분류 1) 다른 변수에 영향을 주는 변수 → 독립변수, 설명변수 독립변수(in.. 2022. 3. 4.
728x90
반응형
LIST