전체 글50 [통계] 요인분석 •탐색적요인분석(EFA: exploratory factor analysis) -새로운 요인을 추출하고 할 때 사용 •확인적요인분석(CFA: Confirmatory factor analysis) -이론으로 정해진 모형이 적절한지 확인할 때 사용 • 탐색적 요인분석 -탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법 -높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점 -심각한 다중 공선성 문제를 해결하는데 사용 • 요인분석을 하는 이유 1)데이터 양을 줄여 정보를 요약 2)변.. 2023. 1. 27. [통계] 모델 검증 •개발된 모델이 데이터를 잘 설명하는지 평가 -학습 – 모의고사 – 시험 으로 이해 -학습 데이터로 모델을 생성한 뒤 중간과정 없이 테스트 데이터로 모델을 평가하면 과적합/과소적합이 발생할 수 있음 -모델이 이미 테스트 데이터를 학습하였기 때문에 모델 개선 후 다시 테스트할 수 있는 방도가 없음 -따라서, 중간에 Validation dataset을 만들어서 검증 •종류 -Holdout -K-fold cross validation -Leave-one-out cross validation (LOOCV) •Holdout -전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 일부를 검증 데이터셋으로 또 분리하는 방법 -즉, 전체 데이터를 3개(학습 데이터, 검증 데이터, 테스트 데이터)로 분류 -가장.. 2023. 1. 26. [통계] 모델 선택 및 PCA •변수 선택이 필요한 이유 -해석이 복잡 -과적합(Overfitting) 문제 발생 -변수간 다중공선성(Multicolinearity) 발생 -데이터 분석 시간 증가 - •해결 방안 -전 모형 탐색법(All possible subset regression) -단계별 변수 선택 -주성분분석 •전 모형 탐색법 -변수가 P개인 경우 이를 이용해 만들 수 있는 모든 모형의 개수는 일차항만 고려할 경우 2P 개 -전모형 탐색법이란 2P 개의 모든 모형의 점수를 구하여 가장 최적의 모형을 찾는 방법을 의미 -보통 P ≤ 30일 때 사용 - •방법 -Adjusted R2 -AIC BIC •회귀모형 -y: dependent variable -x: predictor variables -i: 1,2,…,n -K: numb.. 2023. 1. 26. [통계] 판별분석 •개념 -설명변수를 통해 선형판별함수를 도출하여 2개 이상의 그룹을 구분 및 예측함 -등간 척도나 비율 척도로 측정된 독립변수를 이용해 명목척도 또는 서열척도로 측정된 종속변수를 분류 •종류 -종속변수의 집단수가 2개인 경우: two-group discriminant analysis -종속변수의 집단수가 3개 이상인 경우: multiple discriminant analysis •분류(classification)와의 차이점 1)분류: 대상이 몇 개의 그룹으로 나뉘어 지는지 자료를 보기 전까지는 모름 2)판별: 존재하는 그룹의 수를 알고 있고, 새로운 대상이 어느 그룹에 속하는지 결정 •가설 -귀무가설: 두 개 또는 그 이상의 집단의 평균이 동일하다. -대립가설: 두 개 또는 그 이상의 집단의 평균이 동일.. 2023. 1. 25. [통계] 이산선택모형 •이산선택(discrete choice)의 개념 -종속변수가 명목척도일 때 사용하는 회귀모델 -종속변수가 선택지(대안) 메뉴를 가지며, 하나의 선택지가 선택됨 -관측 가능한 특성(독립변수)을 이용하여 의사결정(선택)을 이해 •사례 -교통: 개인의 교통수단 선택(자동차, 버스, 지하철 등) -마케팅: 소비자의 제품 선택 -의학: 연령에 따른 심장병 질환 •이산선택 모형의 종류 -종속변수의 유형에 따라 이항선택, 다항선택, 순위(서열) 선택, 가잔자료 모형으로 구분 1) 이항선택 모형(binary choice): y=0, 1 -두 개의 범주에서 하나를 선택: 출석 or 결석, 찬성 or 반대.. -로짓(logit) 모형, 프로빗(probit) 모형 2) 다항선택 모형(multinomial choice mod.. 2023. 1. 25. 다중 변수 시계열 분석(Temporal Fusion Transformers) 이 연구에서 소개하는 Temporal Fusion Transformers는 시간 불변하는 변수가 포함된 모형의 시계열 분석 방법으로 2021년에 소개된 Python 패키지이다. 시계열 데이터를 연구하는 많은 분야에서 사용되고 있으며, 앞으로도 더 많은 활용이 기대되는 방법이다. 여기에서는 원문을 해석하여 설명하는 방식으로 방법을 소개하고자 한다. 방법에 대해 더 자세한 내용을 알고 싶은 분은 원문을 참조하기 바란다. 원문은 아래와 같다. Lim, B., Arık, S. Ö., Loeff, N., & Pfister, T. (2021). Temporal fusion transformers for interpretable multi-horizon time series forecasting. Internatio.. 2023. 1. 21. 이전 1 2 3 4 5 6 7 8 9 다음