본문 바로가기

Data Science50

[Forecasting] 예측이란? 우리는 언제나 미래를 궁금해 하고 미래의 불확실성을 없애고 싶어한다. 리매를 예측해서 미리 예방을 하거나 합리적이고 효율적인 의사결정을 하기 위해 예측이 필요하다. 예측 결과는 시간이 지나면서 실제 결과와 비교된다. 예측 결과와 실제 결과와의 차이를 예측오차라고 하며 이것을 줄이기 위해 노력하고 있다. 예측 사례를 보면 생활과 가장 밀접한 기상예측은 오차가 적을 때도 있고 클 때도 있지만 확률을 통해 예측을 한다. 통계청에서는 저출생 고령화의 우려로 인구를 예측하기 위해 인구수의 추세를 계산한다. 이 때 범위예측을 사용한다. 한국은행에서는 1년에 4회 분기별로 경제성장률을 예측한다. 기간이 멀어질수록 불확실성이 커지기 때문에 fan chart band도 늘어나게 된다. 구글에서는 검색데이터를 분석해서 준.. 2022. 4. 5.
[DataMining] 로지스틱회귀모형 로지스틱 회귀모형이란? 목표변수가 두 개의 범주를 가진 이항형인 경우 선형회귀모형을 적용하면 0 또는 1과 다른 예측값을 얻거나 범위를 넘어선 값이 나올 수도 있다. 이것을 방지하기 위해 목표변수의 값이 1인 확률의 로짓변환과 입력변수들의 선형함수 관계로 나타내는 로지스틱 회귀모형을 사용하게 된다. 예를 들어 목표변수의 두 범주 값 ‘신용이 좋다’는 1, ‘신용이 나쁘다’는 0인 경우에 로지스틱 회귀모형이 필요하고 목표변수가 두 값 중에 하나("실패" 0과 "성공" 1 중에 주로 "성공" 1)를 가지는 확률을 모형화 한다. 1. 로지스틱회귀모형의 정의 총 n의 객체(subject) 중에 i번째 객체에 대한 두 개의 범주(성공 또는 실패)를 가지는 이항형 목표변수 값을 $Y_i$로 두고 입력변수들의 값을 .. 2022. 4. 5.
[DataMining] 선형회귀모형 선형회귀모형과 로지스틱 회귀모형은 용도가 다르다. 선형회귀모형은 예측을 위한 회귀모형이고, 로지스틱 회귀모형은 분류를 위한 회귀모형이다. 1. 선형회귀모형의 정의 총 n개의 객체중에 i번째 객체에 대한 연속형 목표변수 값을 $Y_i$라고 한다. 입력변수들의 값을 X1i, X2i, ..., Xpi라고 할 때 선형회귀모형은 아래와 같이 정의할 수 있다. - 상수 $\beta$ 회귀모수(regression parameters) 또는 회귀계수(regression coefficients)라고 한다. - 오차 $\epsilon_i$는 $Y_i$의 근사에서 오차항이라고 한다. - 가정 각 객체들의 오차는 서로 독립(independent)이고 평균이 0인 일정한 분산(constant variance)을 가진 정규분포(.. 2022. 4. 4.
[DataMining] 데이터마이닝이란? 1. 데이터마이닝의 개념 데이터마이닝은 대용량 데이터로부터 이 데이터 안에 존재하는 관계, 패턴 규칙 등을 찾고 모델링해서 유용한 지식을 추출하는 작업이다. 대량의 데이터를 모아서 활용할 수 있고 실시간으로 데이터의 큰 특징을 뽑아내서 분석으로 가치를 창출할 수 있다. 데이터마이닝을 이해하기 위해서는 모수적 모형과 알고리즘 접근 방법을 비교해 봐야 한다. 두 가지 방법중 하나를 사용할 수도 있고 두가지 방법을 다 사용해서 데이터를 분선할 수 있다. 1) 모수적 모형 접근법 모수적 모형 접근법은 모형을 설정하고 단순선형회귀분석과 같이 수치적으로 파라미터를 찾아내서 데이터를 적합하는 것이다. 로지스틱 회귀모형, 선형 회귀 분석, 나이브베이즈, 단순 신경망 등에 쓰인다. 장점 - 더 단순하기 때문에 결과를 이.. 2022. 4. 3.
[Regression] 표준화된 중회귀분석 1. 표준화된 중회귀분석 1) 변수 표준화 단위가 다르면 어떤 변수가 더 많은 영향을 미치는지 알 수 없다. 이런 변수들은 단위의 영향을 받지 않도록 표준화가 필요하다. 위의 중회귀모형에 종속변수와 독립변수를 변수 변환한다. 이와 같이 변수를 표준화해서 회귀모형을 하게 된다. 2) 표준화된 회귀모형 - 표준화된 중회귀모형 표준화된 회귀모형의 절편값은 항상 0이 되기 때문에 절편값이 없다. 표준화된 중회귀모형에서 추정된 회귀계수 $a_i$의 절대값이 클수록 설명변수 $X_i$가 반응변수 $Y_i$에 주는 영향이 커진다. - R을 활용한 표준화 회귀모형 > install.packages("lm.beta") trying URL 'https://cran.rstudio.com/bin/macosx/el-capita.. 2022. 4. 1.
[Regression] 중회귀모형 1. 중회귀모형이란? 반응변수에 영향을 미치는 변수가 여러개가 있을 때 종속변수의 변화를 설명하기 위해서 두 개 이상의 독립변수가 사용되는 선형회귀모형을 중선형회귀(Multiple Linear Regression Model) 또는 중회귀모형(Multipl Regression Model)이라고 부른다. - 독립변수 갯수가 k개인 중회귀모형 2. 행렬을 이용한 중회귀모형 1) 중회귀모형에서 독립변수가 2개인 경우 아래 식을 따르지 않는 오차항일 경우 n개의 오차는 서로 독립이고 평균이 0이고 분산이 σ2인 정규분포를 따른다고 가정할 수 있다. 이 때 행렬을 이용해서 구하면 편하다. 2) 벡터 표현 중회귀모형을 벡터로 표현하게 되면 계수벡터와 행벡터의 곱으로 표현할 수 있다. 3) 중회귀모형의 행렬 표현 벡.. 2022. 3. 31.
[Regression] 가중회귀 1. 가중회귀란? 잔차의 분산이 일정하지 않아서 최소제곱법 가정을 사용할 수 없는 경우에 가중회귀를 사용한다. 가중치를 적절하게 부여하여 가중된 잔차 제곱합을 최소화함으로써 분산이 일정한 잔차를 만들어낼 수 있다. 2. 가중회귀분석 평균이 0이고 분산이 σ2인 정규분포라고 가정했을 때 이 오차항의 분산이 오차항마다 다른 경우 이럴 때 가중최소제곱법을 사용하여 가중값을 제곱하여 적합시킨다. > x = c(1, 2, 3, 4, 5) > y = c(2, 3, 5, 8, 7) > w = 1/x > # 가중치를 w로 한 가중회귀모형을 적합시키기 > w.lm = lm(y ~ x, weights=w) > summary(w.lm) Call: lm(formula = y ~ x, weights = w) Weighted R.. 2022. 3. 31.
[Regression] 회귀계수의 신뢰구간 및 검정 방법 1. 단순회귀의 추정과 검정 기울기에 대한 추정값 $b_1$과 절편에 대한 추정값 $b_0$을 이용해 구간추정과 가설검정을 한다. 정규분포를 따른다고 가정할 수 있다. 따라서 관측되는 값들이 전부 회귀선과 가까이 있다면 분산의 추정값은 작아진다. 2. $\beta_1$의 신뢰구간 - 회귀계수 기울기 $\beta_1$의 추정량 - 기댓값, 분산 - $\sigma^2$의 추정값은 MSE에 의하여 구해짐 - $b_1$의 분산에 대한 추정값 - $\beta_1$의 신뢰계수 100(1-$\alpha$)% 신뢰구간 - 절편 $\beta_0$의 추정량 - 기댓값 및 분산 - $\beta_0$의 100(1-$\alpha$)%의 신뢰구간 3. R 결과에서 $\beta_1$과 $\beta_0$ 신뢰구간 구하기 > mark.. 2022. 3. 30.
[Multivariate Analysis] Factor analysis(인자분석) 인자분석이란? 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다. 이 변수들은 관측되지 않은 가상의 변수가 이해력 분석력에 대한 측정을 한 것이 아니기 때문에 이 인자들을 생성하는 것은 주관적으로 해석하게 된다. 사회적, 경제적 변수 5개를 예로 들어서 보면 관찰되지 않은 변수들로부터 서로 상관관계가 숨어있는 잠재적 요인을 찾게 된다. x의 분산은 스케일링을 시프트 해도 모양이 바뀌지 않는다. $X=LF+\epsilon$ (X 2022. 3. 21.
728x90
반응형
LIST