[통계] 요인분석

•탐색적요인분석(EFA: exploratory factor analysis)

-새로운 요인을 추출하고 할 때 사용

•확인적요인분석(CFA: Confirmatory factor analysis)

-이론으로 정해진 모형이 적절한지 확인할 때 사용

• 탐색적 요인분석

-탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법

-높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점

-심각한 다중 공선성 문제를 해결하는데 사용

• 요인분석을 하는 이유

1)데이터 양을 줄여 정보를 요약

2)변수 내부에 존재하는 구조를 파악

3)중요도가 낮은 변수를 제거

4) 측정도구의 타당성 평가

Exploratory Factor Analysis

• 변수 축소

• Factor Analysis

• 요인과 변수

• 변수= 우리가 관측가능한 값

• 요인= 관측 불가능하지만 해석가능한 값

• 개념적 정의(요인)와 조작적 정의(변수)

-입사시 업무능력을 대학성적과 공인영어성적으로 측정

• 요인을 변수를 이용해 측정

-행복요인은 인간관계, 긍정적, 성취적 변수 등으로 측정

-만족도요인은 가격, 성능, 디자인, AS, 브랜드 만족도 변수 등으로 측정

• 궁극적인 분석목표

- 변수? 요인?

• 요인과 변수의 관계

• 변수는 요인들로 이루어져 있다

-수학성적=계산력+논리력+언어해독력+창의력+기타요인

-국어성적=계산력+논리력+언어해독력+창의력+기타요인

-100m기록=순발력+지구력+근력+기타요인

-마라톤기록=순발력+지구력+근력+기타요인

• 변수는 여러 (공통)요인으로 이루어져 있다

-구성비(영향력)가 다를 뿐

• 변수와 공통요인

• 변수를 가장 잘 설명하는 요인의 선택

수학적 모형

• 독립변수(종속변수는 없음)

• 공통요인(인자, factor)

• 변수 = 공통요인 + 특별요인

사례: 6과목 성적(변수)을 요인으로 축소

• 상관계수 행렬

• 결과

- 고유값이 1이상인 요인이 2개, 이들은 문리적요인과 수리적요인으로 판단(naming)

- 분산은 설명하는 비율을 의미: 2.73/6=45.5%, 1.13/6=18.8%

- 누적분산이 64.4%라는 의미는 6개 변수가 갖고 있는 정보의 64.4%를 2개의 요인이 설명한다는 의미

- 원래 한 변수의 정보 양이 1이므로 1미만의 정보를 갖는 요인으로 대체하는 건 불합리

- 즉, 고유값 1 이상인 요인만 선택

• 요인 선택

Principal Components Regression (PCA)

• 개념

-데이터의 차원 축소(dimensionality reduction)와 변수추출(feature extraction)을 위해 사용되는 방법

-변수추출은 기존 변수를 조합해 새로운 변수를 만드는 기법으로, 단순히 일부 중요 변수를 빼내는 변수선택(feature selection)과는 다름

-PCA는 기존 변수를 선형결합(linear combination)해 새로운 변수를 만듦

-예컨대, 변수가 p개, 관측치가 n개 있는 데이터 X(p x n)로 아래와 같이 새로운 변수 z를 만드는 과정

-여기에서, 벡터 xi는 데이터 행렬 X의 i번째 변수에 해당하는 행벡터(1 x n)인데, 이들을 적절히 조합해 새로운 벡터 zi (1 x n)를 만드는 것

-다시 말해, 벡터 zi는 X를 ai(p x 1)라는 새로운 축에 사영(projection) 시킨 결과물로, 변수추출로 새롭게 만들어진 zi로 구성된 행렬 Z는 아래 오른쪽 그림과 같음

•개념

-서로 상관관계가 있는 p개의 확률변수 X1, X2, ..., Xp에 대해 주성분은 확률변수의 특정한 선형 결합

-기하학적 측면에서 보면 원래 좌표축들을 회전시켜 얻어진 새로운 좌표축을 선택하는 것

-새로운 좌표축은 변수들의 변동이 가장 큰 방향과 일치되므로 복잡한 상관구조를 단순하게 이해할 수 있음

-제1주축은 변수들 간의 공분산을 가장 많이 설명, 제2주축은 나머지 분산을 최대로 설명(직교)

-변수가 3개 이상이면 n차원의 공간 상에서 주축을 추출하므로 행렬대수를 이용하여 나타냄

•사례

-학생 100명의 국어와 영어 시험 점수를 이용해 종합 점수를 만들 때(영어 시험이 조금 더 어려웠음),

-1) 평균을 만드는 것이 가장 쉬운 방법이지만, 더 어려웠던 영어 성적에 2) 가중치를 주는 것도 가능

-예를 들어, A 학생의 국어/영어 성적이 100/80점 이라면

1)평균: 100 x 0.5 + 80 x 0.5 (red line)

2)가중치: 100 x 0.6 + 80 x 0.4 (blue line)

-최적의 가중치 행렬을 찾는 것 à 공분산 행렬을 포착

저작자표시 비영리 변경금지 (새창열림)

'Data Analysis' 카테고리의 다른 글

통계, 머신러닝 및 딥러닝 소개(1) (1)	2023.01.31
[통계] 구조방정식(1) (0)	2023.01.28
[통계] 모델 검증 (0)	2023.01.26
[통계] 모델 선택 및 PCA (0)	2023.01.26
[통계] 판별분석 (1)	2023.01.25