•탐색적요인분석(EFA: exploratory factor analysis)
-새로운 요인을 추출하고 할 때 사용
•확인적요인분석(CFA: Confirmatory factor analysis)
-이론으로 정해진 모형이 적절한지 확인할 때 사용
• 탐색적 요인분석
-탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법
-높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점
-심각한 다중 공선성 문제를 해결하는데 사용
• 요인분석을 하는 이유
1)데이터 양을 줄여 정보를 요약
2)변수 내부에 존재하는 구조를 파악
3)중요도가 낮은 변수를 제거
4) 측정도구의 타당성 평가
Exploratory Factor Analysis
• 변수 축소
• Factor Analysis
• 요인과 변수
• 변수= 우리가 관측가능한 값
• 요인= 관측 불가능하지만 해석가능한 값
• 개념적 정의(요인)와 조작적 정의(변수)
-입사시 업무능력을 대학성적과 공인영어성적으로 측정
• 요인을 변수를 이용해 측정
-행복요인은 인간관계, 긍정적, 성취적 변수 등으로 측정
-만족도요인은 가격, 성능, 디자인, AS, 브랜드 만족도 변수 등으로 측정
• 궁극적인 분석목표
- 변수? 요인?
• 요인과 변수의 관계
• 변수는 요인들로 이루어져 있다
-수학성적=계산력+논리력+언어해독력+창의력+기타요인
-국어성적=계산력+논리력+언어해독력+창의력+기타요인
-100m기록=순발력+지구력+근력+기타요인
-마라톤기록=순발력+지구력+근력+기타요인
• 변수는 여러 (공통)요인으로 이루어져 있다
-구성비(영향력)가 다를 뿐
• 변수와 공통요인
• 변수를 가장 잘 설명하는 요인의 선택
수학적 모형
• 독립변수(종속변수는 없음)
• 공통요인(인자, factor)
• 변수 = 공통요인 + 특별요인
사례: 6과목 성적(변수)을 요인으로 축소
• 상관계수 행렬
• 결과
- 고유값이 1이상인 요인이 2개, 이들은 문리적요인과 수리적요인으로 판단(naming)
- 분산은 설명하는 비율을 의미: 2.73/6=45.5%, 1.13/6=18.8%
- 누적분산이 64.4%라는 의미는 6개 변수가 갖고 있는 정보의 64.4%를 2개의 요인이 설명한다는 의미
- 원래 한 변수의 정보 양이 1이므로 1미만의 정보를 갖는 요인으로 대체하는 건 불합리
- 즉, 고유값 1 이상인 요인만 선택
• 요인 선택
Principal Components Regression (PCA)
• 개념
-데이터의 차원 축소(dimensionality reduction)와 변수추출(feature extraction)을 위해 사용되는 방법
-변수추출은 기존 변수를 조합해 새로운 변수를 만드는 기법으로, 단순히 일부 중요 변수를 빼내는 변수선택(feature selection)과는 다름
-PCA는 기존 변수를 선형결합(linear combination)해 새로운 변수를 만듦
-예컨대, 변수가 p개, 관측치가 n개 있는 데이터 X(p x n)로 아래와 같이 새로운 변수 z를 만드는 과정
-여기에서, 벡터 xi는 데이터 행렬 X의 i번째 변수에 해당하는 행벡터(1 x n)인데, 이들을 적절히 조합해 새로운 벡터 zi (1 x n)를 만드는 것
-다시 말해, 벡터 zi는 X를 ai(p x 1)라는 새로운 축에 사영(projection) 시킨 결과물로, 변수추출로 새롭게 만들어진 zi로 구성된 행렬 Z는 아래 오른쪽 그림과 같음
•개념
-서로 상관관계가 있는 p개의 확률변수 X1, X2, ..., Xp에 대해 주성분은 확률변수의 특정한 선형 결합
-기하학적 측면에서 보면 원래 좌표축들을 회전시켜 얻어진 새로운 좌표축을 선택하는 것
-새로운 좌표축은 변수들의 변동이 가장 큰 방향과 일치되므로 복잡한 상관구조를 단순하게 이해할 수 있음
-제1주축은 변수들 간의 공분산을 가장 많이 설명, 제2주축은 나머지 분산을 최대로 설명(직교)
-변수가 3개 이상이면 n차원의 공간 상에서 주축을 추출하므로 행렬대수를 이용하여 나타냄
•사례
-학생 100명의 국어와 영어 시험 점수를 이용해 종합 점수를 만들 때(영어 시험이 조금 더 어려웠음),
-1) 평균을 만드는 것이 가장 쉬운 방법이지만, 더 어려웠던 영어 성적에 2) 가중치를 주는 것도 가능
-예를 들어, A 학생의 국어/영어 성적이 100/80점 이라면
1)평균: 100 x 0.5 + 80 x 0.5 (red line)
2)가중치: 100 x 0.6 + 80 x 0.4 (blue line)
-최적의 가중치 행렬을 찾는 것 à 공분산 행렬을 포착
'Data Analysis' 카테고리의 다른 글
통계, 머신러닝 및 딥러닝 소개(1) (1) | 2023.01.31 |
---|---|
[통계] 구조방정식(1) (0) | 2023.01.28 |
[통계] 모델 검증 (0) | 2023.01.26 |
[통계] 모델 선택 및 PCA (0) | 2023.01.26 |
[통계] 판별분석 (1) | 2023.01.25 |
댓글