본문 바로가기
Data Analysis

[기초통계] 추정, 신뢰도 및 가설검정

by Urban communicator 2023. 1. 20.
추정이란?
-모집단은 크기가 너무 크기 때문에 전수조사를 하기 위해서는 엄청난 비용과 시간이 소요되며, 경우에 따라서는 전수조사가 불가능
-대부분의 경우 모집단을 대표할 수 있는 표본을 추출하여 그 표본의 통계량으로 모집단의 모수 추정
-
사례
-A대학교 학생의 평균 키를 추정하고자 할 경우 25,000명이 넘는 모집단인 A대학교 학생 전체를 조사하는 것은 어려움
-학생들 중에서 100명을 표본으로 추출하여 구한 평균 키로 모집단인 A대학교 학생 전체의 평균 키를 추정
 
신뢰구간: 점추정(point estimation)과 구간추정(interval estimation)
1)점추정은 모수가 얼마일 것이라고 하나의 수치를 추정하는 것. 여기서 모수는 모평균, 모분산, 모표준변차, 모비율 등 모집단의 특성에 관한 수치들을 의미
2)구간추정은 모수가 어느 값 a와 어느 값 b 사이, 즉 어떤 구간 내에 몇 %의 확률로 존재할 것이라고 추정하는 것. 그 확률을 신뢰수준(confidence level) 또는 신뢰도라고 부르고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 부름 

 

 
구간추정(interval estimation)
-모수가 신뢰구간 안에 포함되지 않을 확률을 보통 α로 표현
-모수가 신뢰구간 안에 포함될 확률, 즉 신뢰수준은 1−α로 표현
  

만약 신뢰수준 1−α이 0.95 , 95%라면 α=0.05

 

구간추정(interval estimation)

 

모분산을 알 때 모평균의 신뢰구간 추정
-모분산을 안다는 것은 모표준편차를 안다는 것
-모평균을 μ, 모분산을 σ2, 모표준편차를 σ라고 할 때, 크기가 n인 표본의 표본평균 X ̅를 표준화하면 다음과 같다.
 

-만약 95%의 신뢰수준으로 모평균이 신뢰구간 내에 존재한다고 하면, 표준정규분포표에 의해 다음과 같이 쓸 수 있다.
 

 
 
모분산을 알 때 모평균의 신뢰구간 추정
-신뢰수준 1−α1−α인 신뢰구간은 다음과 같이 유도
 
 
모분산을 모를 때 모평균의 신뢰구간 추정
-모분산을 모를 때는 t분포를 사용
-t분포는 정규분포와 상당히 비슷한데 중심부는 낮아지고 양쪽 꼬리는 좀 더 높은 종 형태(아래 그림 참고)
-자유도가 작을수록 꼬리부분이 높아지고, 자유도가 높을수록 표준정규분포에 가까워진다.
-이 자유도는 표본의 크기에 따라 결정(자유도 = n - 1)
 
 
모분산을 모를 때 모평균의 신뢰구간 추정
-모분산, 즉 모표준편차를 모르기 때문에 모표준편차 σ 대신에 표본표준편차 s를 사용
-t통계량은 다음과 같이 쓸 수 있다.
 

 

 

<가설검정> 

연구자가 추측하여 두 개 이상의 변수들 간의 잠정적인 관계를 나타냄
특징 : 연구자가 밝히고자 하는 사항은 선언문 형식으로 표현
사계) 광고는 매출액 증대에 긍정적 영향을 미친다.
- 대립가설(Ha) : 연구자가 주장하기 원하는 가설
- 귀무가설(Ho) : 대립가설의 반대내용으로 통계적 검증의 대상이 됨
--> 귀무가설을 기각하고 대립가설을 채택하기 위해 귀무가설의 잘못됨을 입증해야 함
--> 귀무가설 기각: 대립가설 채택
--> 귀무가설 기각하지 않음: 대립가설 기각
 
1종오류 : 귀무가설이 진실임에도 불구하고 기각하는 오류
 •2종오류 : 귀무가설이 허위임에도 불구하고 기각하지 않는 오류
 
 
가설(hypothesis)의 정의
-연구자가 모집단이 가지고 있는 어떤 특성(모수)에 관한 가정이나 주장을 실제 검증 이전에 하나의 문장으로 표현한 것. 귀무가설과 대립가설이 있음
귀무가설(null hypothesis)
-어떤 주장이 잘못되었다는 것이 증명되지 않는 이상이 진실로 수용되는 것
-귀무가설은 집단 간 하나의 검정변수에 대해 평균의 차이가 존재하지 않는다든가, 혹은 두 변수 간 상호관련성이 없다는 등의 내용으로 이루어짐(H_0)
대립가설(alternative hypothesis)
-연구자가 증명하고자 하는 혹은 채택시키고자 하는 내용으로 표현된 가설
-수집된 자료 분석을 통하여 하나의 객관적인 사실로 받아 들여지기를 바라는 내용으로 구성된 가설(H_1)
-대립가설이 사실이라고 증명이 되면 귀무가설은 기각되지만 그렇지 않은 경우에는 대립 연구 가설이 기각되고 대신 귀무가설이 수용
 
 
가설검정 절차

1단계 : 가설설정

-연구가설 설정 : 입증하고자 하는 내용
-귀무가설 설정 : 입증하고자 하는 내용의 반대
-검증종류 설정 : 양측 or 단측

2단계 : 임계치 설정(가장 보편적으로 사용되는 알파값은 0.05(95% 신뢰수준))

-표본의 검증통계량의 값과 비교할 수 있는 기준(신뢰구간의 상,하한값)            
-평균에 대한 가설 검증 : T 분포
-분산에 대한 가설 검증 : F 분포       

3단계 :  검증통계량 결정

-표본에 따라 단위가 다르므로 이를 표준화시켜 계산한 값
-Z통계량(정규분포) : 단일집단에서 모집단의 분산 알고 표본크기가 큰 경우(N>30)
-T통계량(T분포) : 모집단의 분산 모르고 표본크기가 작은 경우
-F통계량 :  둘 이상 집단의 평균값비교시
-χ2 통계량 : 둘 이상 집단의 특성차이 비교시

4단계 : 가설채택 기준 결정

        1) 유의수준(α) 결정

        2) 가설검정

              (1) 임계치를 이용한 가설검정

               - 검정통계량 > 임계치 : 귀무가설 기각, 대립가설 채택

               - 검정통계량 < 임계치 : 귀무가설 채택, 대립가설 기각

              (2) p-value을 이용한 가설검정

               - p-value > α 값 : 귀무가설채택, 대립가설 기각

               - p-value < α 값 : 귀무가설 기각, 대립가설 채택

 

유의수준(p-value)
정의: 귀무가설이 진실이나 기각할 확률, 귀무가설을 기각하는 것이 잘못 될 확률, 대립가설을 채택하는 것이 잘못될 확률
-P-value = 0.7 : 귀무가설을 기각하는 것이 잘못될 확률이 0.7

 

-유의수준이 낮을수록 연구자는 자신있게 대립가설을 주장할 수 있음
-허용오차수준(α) : p-value의 허용수준, α= 0.05가 일반적
-p-value가 작을수록, α 가 클수록 귀무가설 기각 가능성 큼
 

 

 

'Data Analysis' 카테고리의 다른 글

다중 변수 시계열 분석(Temporal Fusion Transformers)  (0) 2023.01.21
[통계] 회귀분석  (1) 2023.01.21
[통계] 확률과 확률분포  (0) 2023.01.19
Urban-GAN(2)  (0) 2023.01.19
Urban-GAN(1)  (0) 2023.01.18

댓글