본문 바로가기
Data Science/Multivariate Analysis

[Multivariate Analysis] Factor analysis(인자분석)

by AI_Wooah 2022. 3. 21.

인자분석이란?

서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.

 

이 변수들은 관측되지 않은 가상의 변수가 이해력 분석력에 대한 측정을 한 것이 아니기 때문에 이 인자들을 생성하는 것은 주관적으로 해석하게 된다.

사회적, 경제적 변수 5개를 예로 들어서 보면

관찰되지 않은 변수들로부터 서로 상관관계가 숨어있는 잠재적 요인을 찾게 된다.

x의 분산은 스케일링을 시프트 해도 모양이 바뀌지 않는다.

$X=LF+\epsilon$

(X<-X-μ)

X가 주어지면 적절한 인자 수를 추출해서 그 인자를 바탕으로 설명해나간다.

- 인자의 갯수

인자의 갯수는 변수의 수보다 작아야 한다. 한 번에 이해하기 쉽도록 데이터를 잘 설명할 수 있어야 하며, 조건을 만족하고 연관성이 높아야 하기 때문에 3~4개 정도로 적은 갯수를 뽑는다.

- L : factor loading (인자 적재 계수)

인자 적재 계수를 어떻게 추출할 것인지 잘 정해야 한다. 이와 같이 추출된 모형이 얼마나 자료를 잘 설명하는지

x변량의 크기 분산의 크기를 인자모형를 가지고 얼마나 잘 설명할 것인지 설명의 정도가 우리의 관심사다.

- Exploratory Factor Analysis : 탐색적 요인 분석

측정 변수 간의 기본 관계를 식별하는 것이다.

데이터를 더 작은 요약 변수 집합으로 줄이고 현상의 기본 이론적 구조를 탐색한다.

  • R-type factor analysis(R형 요인분석): 상관행렬로부터 요인을 계산하는 것을 R형 요인분석이라고 한다.
  • Q-type foctor analysis(Q형 요인분석): 개별 응답자로부터 요인을 계산할 때 Q형 요인분석이라고 한다.

- Confirmatory Factor Analysis

추출된 인자모형이 얼만큼 X의 분산을 잘 설명하는지 검증한다.

 

기본적으로 인자모형을

인자모형을 분산으로 봤을 때

인자와 오차가 서로 독립이기 때문에 Var(LF)+Var($\epsilon$)으로 각자의 분산을 나눠줄 수 있다.

여기서 Var(LF)는 LVar(F)L'으로 쓸 수 있으며 Var(F)는 단위행렬이기 때문에 L*L'이 된다.

오차의 분산은 Ψ로 나타낸다.

 

i번째 변수의 분산이 인자적재계수의 제곱의 합이 되고

설명하지 못하는 부분이 Ψ로 된다.

이러한 인자모형이 좋으려면 공통성이 커야 하고 고유분산이 작아야 한다.

 

인자의 수를 결정할 때

고유값이 분산의 크기니까 상관계수 행렬일 때 고유값이 1이나 0.7보다 큰 것을 주성분의 수로 결정했다.

인자분석에서도 고유값의 크기가 1보다 큰 것을 기준으로 보통 3개~4개로 정한다.

 

인자모형 추정 방법

인자모형 추정 방법은 크게 세 가지가 있다.

1) 주성분 방법(PCA, Principal Component Method)

주성분분석으로 시작해서 상관계수 행렬의 대각선을 그리고 추정치를 어떤 값으로 대체하며 계속 반복해서 구하는 것이다.

2) 최우추정법(MLE, Maximum Likelihood Method)

3) 최소 잔차법(MinRes, Minimum residual)

잔차의 제곱합을 최소로 하는 것

 

Factor Rotation(인자 회전)

 

 

직각인 경우도 있고 직각이 아닌 경우도 있다.

왼쪽은 orthogonal rotation matrix(직교회전)

오른쪽은 oblique rotation(사각회전)

 

Factor score(인자점수)

주어진 변수로 설명한 것을 인자점수라고 한다.

 

반응형

댓글