본문 바로가기

전체 글49

[통계] 모델 검증 •개발된 모델이 데이터를 잘 설명하는지 평가 -학습 – 모의고사 – 시험 으로 이해 -학습 데이터로 모델을 생성한 뒤 중간과정 없이 테스트 데이터로 모델을 평가하면 과적합/과소적합이 발생할 수 있음 -모델이 이미 테스트 데이터를 학습하였기 때문에 모델 개선 후 다시 테스트할 수 있는 방도가 없음 -따라서, 중간에 Validation dataset을 만들어서 검증 •종류 -Holdout -K-fold cross validation -Leave-one-out cross validation (LOOCV) •Holdout -전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 일부를 검증 데이터셋으로 또 분리하는 방법 -즉, 전체 데이터를 3개(학습 데이터, 검증 데이터, 테스트 데이터)로 분류 -가장.. 2023. 1. 26.
[통계] 모델 선택 및 PCA •변수 선택이 필요한 이유 -해석이 복잡 -과적합(Overfitting) 문제 발생 -변수간 다중공선성(Multicolinearity) 발생 -데이터 분석 시간 증가 - •해결 방안 -전 모형 탐색법(All possible subset regression) -단계별 변수 선택 -주성분분석 •전 모형 탐색법 -변수가 P개인 경우 이를 이용해 만들 수 있는 모든 모형의 개수는 일차항만 고려할 경우 2P 개 -전모형 탐색법이란 2P 개의 모든 모형의 점수를 구하여 가장 최적의 모형을 찾는 방법을 의미 -보통 P ≤ 30일 때 사용 - •방법 -Adjusted R2 -AIC BIC •회귀모형 -y: dependent variable -x: predictor variables -i: 1,2,…,n -K: numb.. 2023. 1. 26.
[통계] 판별분석 •개념 -설명변수를 통해 선형판별함수를 도출하여 2개 이상의 그룹을 구분 및 예측함 -등간 척도나 비율 척도로 측정된 독립변수를 이용해 명목척도 또는 서열척도로 측정된 종속변수를 분류 •종류 -종속변수의 집단수가 2개인 경우: two-group discriminant analysis -종속변수의 집단수가 3개 이상인 경우: multiple discriminant analysis •분류(classification)와의 차이점 1)분류: 대상이 몇 개의 그룹으로 나뉘어 지는지 자료를 보기 전까지는 모름 2)판별: 존재하는 그룹의 수를 알고 있고, 새로운 대상이 어느 그룹에 속하는지 결정 •가설 -귀무가설: 두 개 또는 그 이상의 집단의 평균이 동일하다. -대립가설: 두 개 또는 그 이상의 집단의 평균이 동일.. 2023. 1. 25.
[통계] 이산선택모형 •이산선택(discrete choice)의 개념 -종속변수가 명목척도일 때 사용하는 회귀모델 -종속변수가 선택지(대안) 메뉴를 가지며, 하나의 선택지가 선택됨 -관측 가능한 특성(독립변수)을 이용하여 의사결정(선택)을 이해 •사례 -교통: 개인의 교통수단 선택(자동차, 버스, 지하철 등) -마케팅: 소비자의 제품 선택 -의학: 연령에 따른 심장병 질환 •이산선택 모형의 종류 -종속변수의 유형에 따라 이항선택, 다항선택, 순위(서열) 선택, 가잔자료 모형으로 구분 1) 이항선택 모형(binary choice): y=0, 1 -두 개의 범주에서 하나를 선택: 출석 or 결석, 찬성 or 반대.. -로짓(logit) 모형, 프로빗(probit) 모형 2) 다항선택 모형(multinomial choice mod.. 2023. 1. 25.
다중 변수 시계열 분석(Temporal Fusion Transformers) 이 연구에서 소개하는 Temporal Fusion Transformers는 시간 불변하는 변수가 포함된 모형의 시계열 분석 방법으로 2021년에 소개된 Python 패키지이다. 시계열 데이터를 연구하는 많은 분야에서 사용되고 있으며, 앞으로도 더 많은 활용이 기대되는 방법이다. 여기에서는 원문을 해석하여 설명하는 방식으로 방법을 소개하고자 한다. 방법에 대해 더 자세한 내용을 알고 싶은 분은 원문을 참조하기 바란다. 원문은 아래와 같다. Lim, B., Arık, S. Ö., Loeff, N., & Pfister, T. (2021). Temporal fusion transformers for interpretable multi-horizon time series forecasting. Internatio.. 2023. 1. 21.
[통계] 회귀분석 • 회귀의 의미 1) 회귀의 사전적 의미? Go back to an earlier and worse condition 2 )Francis Galton(1822~1911)의 연구에서 기원 - 부모의 키와 자녀의 키 사이의 관계를 연구해보니 평균으로 돌아가려는 경향을 발견 - 자녀의 키에 영향을 미치는 부모의 키의 영향력 도출 • 회귀분석의 종류 • 회귀분석 적용 사례 - 설명변수가 종속변수에 어떠한 영향을 미치고 있는가? 1) 주택가격 모형(hedonic price model) hprice=f(주택모형, 입지특성, 공동체/지역 특성) 2) 교통 수요 모형(통행 발생량) 수요량=f(인구, 소득, 자동차 보유율, 밀도 등) 3) 제품생산 비용에 대한 연구 비용=f(설계, 생산, 유통 비용) 4) 개인의 상품 .. 2023. 1. 21.