로지스틱 회귀모형이란?
목표변수가 두 개의 범주를 가진 이항형인 경우 선형회귀모형을 적용하면 0 또는 1과 다른 예측값을 얻거나 범위를 넘어선 값이 나올 수도 있다.
이것을 방지하기 위해 목표변수의 값이 1인 확률의 로짓변환과 입력변수들의 선형함수 관계로 나타내는 로지스틱 회귀모형을 사용하게 된다.
예를 들어 목표변수의 두 범주 값 ‘신용이 좋다’는 1, ‘신용이 나쁘다’는 0인 경우에 로지스틱 회귀모형이 필요하고
목표변수가 두 값 중에 하나("실패" 0과 "성공" 1 중에 주로 "성공" 1)를 가지는 확률을 모형화 한다.
1. 로지스틱회귀모형의 정의
총 n의 객체(subject) 중에 i번째 객체에 대한 두 개의 범주(성공 또는 실패)를 가지는 이항형 목표변수 값을 $Y_i$로 두고 입력변수들의 값을 X1i, X2i, …, Xpi라고 둔다.
이항형 목표변수는 이항분포(binomial distribution)를 따른다. 두 개의 범주값을 1과 0으로 표시하고, 목표변수가 ‘성공’ 1을 가질 확률을
이라고 했을 때 로지스틱 회귀모형을 아래와 같이 정의한다.
단, X1i, X2i, …, Xpi 입력변수의 값이고 이항형 목표변수는 이항분포(binomial distribution)을 따른다고 가정한다.
위의 식에서 목표변수가 범주형에서 연속형 변수로 바뀌지만, $π_i$가 0~1사이의 값만을 가진다. $π_i$가 1에 가까워질수록 입력변수의 값은 무한대로 증가하고 0에 가까워질수록 0으로 수렴한다.
따라서 로지스틱 회귀모형은 아래와 같이 변환하여 표시할 수 있다.
-> β0, β1, β2, …, $\beta_p$를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수라고 한다.
'Data Science > Data Mining' 카테고리의 다른 글
[DataMining] 선형회귀모형 (1) | 2022.04.04 |
---|---|
[DataMining] 데이터마이닝이란? (1) | 2022.04.03 |
댓글