Data Analysis33 [통계] 판별분석 •개념 -설명변수를 통해 선형판별함수를 도출하여 2개 이상의 그룹을 구분 및 예측함 -등간 척도나 비율 척도로 측정된 독립변수를 이용해 명목척도 또는 서열척도로 측정된 종속변수를 분류 •종류 -종속변수의 집단수가 2개인 경우: two-group discriminant analysis -종속변수의 집단수가 3개 이상인 경우: multiple discriminant analysis •분류(classification)와의 차이점 1)분류: 대상이 몇 개의 그룹으로 나뉘어 지는지 자료를 보기 전까지는 모름 2)판별: 존재하는 그룹의 수를 알고 있고, 새로운 대상이 어느 그룹에 속하는지 결정 •가설 -귀무가설: 두 개 또는 그 이상의 집단의 평균이 동일하다. -대립가설: 두 개 또는 그 이상의 집단의 평균이 동일.. 2023. 1. 25. [통계] 이산선택모형 •이산선택(discrete choice)의 개념 -종속변수가 명목척도일 때 사용하는 회귀모델 -종속변수가 선택지(대안) 메뉴를 가지며, 하나의 선택지가 선택됨 -관측 가능한 특성(독립변수)을 이용하여 의사결정(선택)을 이해 •사례 -교통: 개인의 교통수단 선택(자동차, 버스, 지하철 등) -마케팅: 소비자의 제품 선택 -의학: 연령에 따른 심장병 질환 •이산선택 모형의 종류 -종속변수의 유형에 따라 이항선택, 다항선택, 순위(서열) 선택, 가잔자료 모형으로 구분 1) 이항선택 모형(binary choice): y=0, 1 -두 개의 범주에서 하나를 선택: 출석 or 결석, 찬성 or 반대.. -로짓(logit) 모형, 프로빗(probit) 모형 2) 다항선택 모형(multinomial choice mod.. 2023. 1. 25. 다중 변수 시계열 분석(Temporal Fusion Transformers) 이 연구에서 소개하는 Temporal Fusion Transformers는 시간 불변하는 변수가 포함된 모형의 시계열 분석 방법으로 2021년에 소개된 Python 패키지이다. 시계열 데이터를 연구하는 많은 분야에서 사용되고 있으며, 앞으로도 더 많은 활용이 기대되는 방법이다. 여기에서는 원문을 해석하여 설명하는 방식으로 방법을 소개하고자 한다. 방법에 대해 더 자세한 내용을 알고 싶은 분은 원문을 참조하기 바란다. 원문은 아래와 같다. Lim, B., Arık, S. Ö., Loeff, N., & Pfister, T. (2021). Temporal fusion transformers for interpretable multi-horizon time series forecasting. Internatio.. 2023. 1. 21. [통계] 회귀분석 • 회귀의 의미 1) 회귀의 사전적 의미? Go back to an earlier and worse condition 2 )Francis Galton(1822~1911)의 연구에서 기원 - 부모의 키와 자녀의 키 사이의 관계를 연구해보니 평균으로 돌아가려는 경향을 발견 - 자녀의 키에 영향을 미치는 부모의 키의 영향력 도출 • 회귀분석의 종류 • 회귀분석 적용 사례 - 설명변수가 종속변수에 어떠한 영향을 미치고 있는가? 1) 주택가격 모형(hedonic price model) hprice=f(주택모형, 입지특성, 공동체/지역 특성) 2) 교통 수요 모형(통행 발생량) 수요량=f(인구, 소득, 자동차 보유율, 밀도 등) 3) 제품생산 비용에 대한 연구 비용=f(설계, 생산, 유통 비용) 4) 개인의 상품 .. 2023. 1. 21. [기초통계] 추정, 신뢰도 및 가설검정 •추정이란? -모집단은 크기가 너무 크기 때문에 전수조사를 하기 위해서는 엄청난 비용과 시간이 소요되며, 경우에 따라서는 전수조사가 불가능 -대부분의 경우 모집단을 대표할 수 있는 표본을 추출하여 그 표본의 통계량으로 모집단의 모수 추정 - •사례 -A대학교 학생의 평균 키를 추정하고자 할 경우 25,000명이 넘는 모집단인 A대학교 학생 전체를 조사하는 것은 어려움 -학생들 중에서 100명을 표본으로 추출하여 구한 평균 키로 모집단인 A대학교 학생 전체의 평균 키를 추정 •신뢰구간: 점추정(point estimation)과 구간추정(interval estimation) 1)점추정은 모수가 얼마일 것이라고 하나의 수치를 추정하는 것. 여기서 모수는 모평균, 모분산, 모표준변차, 모비율 등 모집단의 특성에.. 2023. 1. 20. [통계] 확률과 확률분포 •확률 및 확률분포의 개념 1)확률이란 무엇인가? -우리가 관심을 갖는 경우의 수가 나올 가능성 ①수학적 확률: 하나의 주사위(표본공간)를 던져서 5(사건)가 나올 가능성 -이때, 표본 공간의 모든 사건이 동등하게 일어날 수 있음. 즉, 두 사건이 동시에 일어날 수 없음(e.g. 주사위 5와 6이 동시에 발생할 수 없음) ②통계적 확률: 전체 시행 횟수 중 특정 사건이 일어날 횟수의 비율 -n번의 시행횟수에서 어떤 사건이 일어날 횟수를 r이라고 하면 그 사건이 일어난 비율은 r/n -e.g. 동전을 던졌을 때 4번 던진다고 무조건 앞 2번, 뒤 2번이 나오는 것은 아님 -시행횟수 n이 무한대로 늘어나면 어떤 극한 값에 한 없이 가까워짐 2) 확률분포란 무엇인가? -어떤 사건이 나타날 가능성인 확률의 분포.. 2023. 1. 19. 이전 1 2 3 4 5 6 다음