본문 바로가기
Data Analysis

[통계] 이산선택모형

by Urban communicator 2023. 1. 25.
이산선택(discrete choice)의 개념
-종속변수가 명목척도일 때 사용하는 회귀모델
-종속변수가 선택지(대안) 메뉴를 가지며, 하나의 선택지가 선택됨
-관측 가능한 특성(독립변수)을 이용하여 의사결정(선택)을 이해
 
사례
-교통: 개인의 교통수단 선택(자동차, 버스, 지하철 등)
-마케팅: 소비자의 제품 선택
-의학: 연령에 따른 심장병 질환
 
이산선택 모형의 종류
-종속변수의 유형에 따라 이항선택, 다항선택, 순위(서열) 선택, 가잔자료 모형으로 구분

1)  이항선택 모형(binary choice): y=0, 1

-두 개의 범주에서 하나를 선택: 출석 or 결석, 찬성 or 반대..
-로짓(logit) 모형, 프로빗(probit) 모형

2)  다항선택 모형(multinomial choice models): y=0, 1, 2

-3개 이상의 범주(categories)에서 하나를 선택: 교통수단 선택, 주거 유형 선택..
-다항 로짓(multinomial logit), 다행 프로빗(multinomial probit) 모형
3)서열 또는 순위 선택 모형
-선택지 간 서열이 존재하는 경우: 설문조사 결과
-순위 로짓(ordered logit), 순위 프로빗(ordered probit) 모형

4) 가산자료(count data) 모형

-종속변수가 발생 가능한 사건의 횟수로 정수로 나타남: 소유 주택 수(0,1,2,3...)
-포아송 회귀 모형
 
확률효용 모형(Random Utility Models)의 개념
-개인 i의 선택은 다음의 두 가지 원리에 의존
1)관측변수 xij 효용함수  V(xij)=Vij; V(xij)=xijβ
2)비관측요소의 선택에 대한 영향은 확률변수 εij에 의해 모델링
- 개인의 선택은 Uij 의존:  Vij+εij=Uij (Uij는 개인 i가 대안 j를 선택할 때 얻는 효용)

- 개인 iUij값이 가장 큰 대안을 선택하며, 이를 Utility maximizer라고 함

 

이항선택 모형의 사례
-이항 선택의 경우 J=2: 두 개의 효용 값
-만약, U_i1 > U_i2 면 개인 i는 대안 1을 선택
 
이항선택 모형의 사례

 

로지스틱 분포(Logistic distribution)
-인구성장의 S 곡선(sigmoid curve): 급격한 성장 뒤 성장률 둔화
-로지스틱 곡선은 1838Verhulst가 인구성장 모형을 수식화한 것이 시초
 

 

 

로짓 모형의 개요

-효용과 확률은 로지스틱 함수 관계
 
로짓 모형의 개요
-로지스틱 모형은 효용과 로짓 간 선형회귀모형
-승산(오주: odds)란 확률이 하나의 대상에 대한 선택을 나타내는 경우 표본추출된 집단 내에서의 선택 비율을 나타내는 것으로써 어떤 사건이 일어날 확률과 일어나지 않을 확률 간의 비율을 말한다.
 
로짓 모형의 개요
-효용과 확률은 S 곡선 관계이지만, 로짓과 효용은 선형 관계
 

 
유형: 로짓 모형과 프로빗 모형
-가장 많이 사용하는 모형으로 확률적 효용의 분포에 대한 가정이 서로 다름
1)logit model: error termiid Type1 extreme value 분포(또는 Gumbel 분포)를 따름
2)probit model: error term이 정규분포의 누적분포함수(CDF)를 따름

 
-로지스틱 분포가 약간 굵은 꼬리를 가짐. 이는 프로빗 곡선보다 로지스틱 곡선이 더 느린속도로 0 또는 1에 접근함을 의미.
-1에 가까운 확률을 예측하는 경우 프로빗 모델
-0에 가까운 확률을 에측하는 경우 로짓모델이 높은 확률값을 추정
 
 
유형: 로짓 모형과 프로빗 모형
 
유형: 이항 로짓
-A에 비해 B를 선택할 확률
 

 

유형: 이항 로짓
 
 
유형: 다항 로짓
-선택 대안이 3개 이상이면서 서로 독립적일 경우
-선택 대안 중 하나를 참조집단(reference group)으로 하여 참조집단을 선택할 확률과 다른 대안을 선택할 확률을 비교
-J개의 선택 대안이 있을 경우 다음과 같이 나타낼 수 있다.
 

 

-J번째 대안이 참조집단. 이는 J개의 선택 대안에 대해 J-1개의 추정결과를 산출한다는 의미
-J를 선택할 확률을 선택하는 회귀식에서 분모는 전체 선택 대상의 합계를 비교하는 데 사용. , 참조집단을 제외한 모든 선택 대안의 점수를 총합하고 j번째 대안이 차지하는 비율을 선택확률로 계산한다는 것을 의미

 

유형: 다항 로짓 

-: 통근수단 선택(자가용/버스/지하철)
-자가용이 참조집단이라면, 1) 버스/자가용, 2) 지하철/자가용 이라는 두 개의 선택 대안을 갖는 이항로지스틱 회귀모델 두 개를 각각 실행하는 것과 같다.
 
회귀 계수 추정: Maximum Likelihood Estimation
-OLS최소자승법과는 달리 가장 가능성 있게 나타날 수 있는 확률을 찾는 것
-우도함수를 설정하고 이 우도함수를 최대화하는 값을 선택
-우도함수

-최대우도 추정법: 모수 값을 변화시키면서 우도함수를 최대화
-표본로그우도함수의 평균을 극대화
 
 
유형: 조건부로빗모형(Conditional logit model)

 

 

 
 
 
 

댓글