본문 바로가기
Data Analysis

[통계] 요인분석

by Urban communicator 2023. 1. 27.
탐색적요인분석(EFA: exploratory factor analysis)
-새로운 요인을 추출하고 할 때 사용
확인적요인분석(CFA: Confirmatory factor analysis)
-이론으로 정해진 모형이 적절한지 확인할 때 사용
 

 

• 탐색적 요인분석

-탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법
-높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점
-심각한 다중 공선성 문제를 해결하는데 사용

• 요인분석을 하는 이유

1)데이터 양을 줄여 정보를 요약
2)변수 내부에 존재하는 구조를 파악
3)중요도가 낮은 변수를 제거
4) 측정도구의 타당성 평가
 
 

Exploratory Factor Analysis

 변수 축소

 

 Factor Analysis

 

 요인과 변수

 

 변수= 우리가 관측가능한 값

 

 요인= 관측 불가능하지만 해석가능한 값

 

 개념적 정의(요인)와 조작적 정의(변수)

-입사시 업무능력을 대학성적과 공인영어성적으로 측정

 

 요인을 변수를 이용해 측정

-행복요인은 인간관계, 긍정적, 성취적 변수 등으로 측정

-만족도요인은 가격, 성능, 디자인, AS, 브랜드 만족도 변수 등으로 측정

 

 궁극적인 분석목표

- 변수? 요인?

 

 요인과 변수의 관계

 

 

 변수는 요인들로 이루어져 있다

-수학성적=계산력+논리력+언어해독력+창의력+기타요인
-국어성적=계산력+논리력+언어해독력+창의력+기타요인
 
-100m기록=순발력+지구력+근력+기타요인
-마라톤기록=순발력+지구력+근력+기타요인

 

 변수는 여러 (공통)요인으로 이루어져 있다

-구성비(영향력)가 다를 뿐

 

 변수와  공통요인

 

 

변수를 가장 잘 설명하는 요인의 선택

 

수학적 모형

 독립변수(종속변수는 없음)

 공통요인(인자, factor)

 변수 = 공통요인 + 특별요인

 

사례: 6과목 성적(변수)을 요인으로 축소

 상관계수 행렬

 결과

- 고유값이 1이상인 요인이 2, 이들은 문리적요인과 수리적요인으로 판단(naming)

- 분산은 설명하는 비율을 의미: 2.73/6=45.5%, 1.13/6=18.8%

- 누적분산이 64.4%라는 의미는 6개 변수가 갖고 있는 정보의 64.4%2개의 요인이 설명한다는 의미

- 원래 한 변수의 정보 양이 1이므로 1미만의 정보를 갖는 요인으로 대체하는 건 불합리

- , 고유값 1 이상인 요인만 선택

 

 요인 선택

 

Principal Components Regression (PCA)

개념
-데이터의 차원 축소(dimensionality reduction)와 변수추출(feature extraction)을 위해 사용되는 방법
-변수추출은 기존 변수를 조합해 새로운 변수를 만드는 기법으로, 단순히 일부 중요 변수를 빼내는 변수선택(feature selection)과는 다름
-PCA는 기존 변수를 선형결합(linear combination)해 새로운 변수를 만듦
-예컨대, 변수가 p, 관측치가 n개 있는 데이터 X(p x n)로 아래와 같이 새로운 변수 z를 만드는 과정
-여기에서, 벡터 xi는 데이터 행렬 Xi번째 변수에 해당하는 행벡터(1 x n)인데, 이들을 적절히 조합해 새로운 벡터 zi (1 x n)를 만드는 것
-다시 말해, 벡터 ziXai(p x 1)라는 새로운 축에 사영(projection) 시킨 결과물로, 변수추출로 새롭게 만들어진 zi로 구성된 행렬 Z는 아래 오른쪽 그림과 같음

개념
-서로 상관관계가 있는 p개의 확률변수 X1, X2, ..., Xp에 대해 주성분은 확률변수의 특정한 선형 결합
-기하학적 측면에서 보면 원래 좌표축들을 회전시켜 얻어진 새로운 좌표축을 선택하는 것
-새로운 좌표축은 변수들의 변동이 가장 큰 방향과 일치되므로 복잡한 상관구조를 단순하게 이해할 수 있음
-1주축은 변수들 간의 공분산을 가장 많이 설명, 2주축은 나머지 분산을 최대로 설명(직교)
-변수가 3개 이상이면 n차원의 공간 상에서 주축을 추출하므로 행렬대수를 이용하여 나타냄

 

사례
-학생 100명의 국어와 영어 시험 점수를 이용해 종합 점수를 만들 때(영어 시험이 조금 더 어려웠음),
-1) 평균을 만드는 것이 가장 쉬운 방법이지만, 더 어려웠던 영어 성적에 2) 가중치를 주는 것도 가능
-예를 들어, A 학생의 국어/영어 성적이 100/80점 이라면
1)평균: 100 x 0.5 + 80 x 0.5 (red line)
2)가중치: 100 x 0.6 + 80 x 0.4 (blue line)
 
-최적의 가중치 행렬을 찾는 것 à 공분산 행렬을 포착

 

 

 

'Data Analysis' 카테고리의 다른 글

통계, 머신러닝 및 딥러닝 소개(1)  (1) 2023.01.31
[통계] 구조방정식(1)  (0) 2023.01.28
[통계] 모델 검증  (0) 2023.01.26
[통계] 모델 선택 및 PCA  (0) 2023.01.26
[통계] 판별분석  (1) 2023.01.25

댓글