[기초통계] 추정, 신뢰도 및 가설검정

•추정이란?

-모집단은 크기가 너무 크기 때문에 전수조사를 하기 위해서는 엄청난 비용과 시간이 소요되며, 경우에 따라서는 전수조사가 불가능

-대부분의 경우 모집단을 대표할 수 있는 표본을 추출하여 그 표본의 통계량으로 모집단의 모수 추정

•사례

-A대학교 학생의 평균 키를 추정하고자 할 경우 25,000명이 넘는 모집단인 A대학교 학생 전체를 조사하는 것은 어려움

-학생들 중에서 100명을 표본으로 추출하여 구한 평균 키로 모집단인 A대학교 학생 전체의 평균 키를 추정

•신뢰구간: 점추정(point estimation)과 구간추정(interval estimation)

1)점추정은 모수가 얼마일 것이라고 하나의 수치를 추정하는 것. 여기서 모수는 모평균, 모분산, 모표준변차, 모비율 등 모집단의 특성에 관한 수치들을 의미

2)구간추정은 모수가 어느 값 a와 어느 값 b 사이, 즉 어떤 구간 내에 몇 %의 확률로 존재할 것이라고 추정하는 것. 그 확률을 신뢰수준(confidence level) 또는 신뢰도라고 부르고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 부름

•구간추정(interval estimation)

-모수가 신뢰구간 안에 포함되지 않을 확률을 보통 α로 표현

-모수가 신뢰구간 안에 포함될 확률, 즉 신뢰수준은 1−α로 표현

만약 신뢰수준 1−α이 0.95 즉, 95%라면 α=0.05

•구간추정(interval estimation)

•모분산을 알 때 모평균의 신뢰구간 추정

-모분산을 안다는 것은 모표준편차를 안다는 것

-모평균을 μ, 모분산을 σ2, 모표준편차를 σ라고 할 때, 크기가 n인 표본의 표본평균 X ̅를 표준화하면 다음과 같다.

-만약 95%의 신뢰수준으로 모평균이 신뢰구간 내에 존재한다고 하면, 표준정규분포표에 의해 다음과 같이 쓸 수 있다.

•모분산을 알 때 모평균의 신뢰구간 추정

-신뢰수준 1−α1−α인 신뢰구간은 다음과 같이 유도

•모분산을 모를 때 모평균의 신뢰구간 추정

-모분산을 모를 때는 t분포를 사용

-t분포는 정규분포와 상당히 비슷한데 중심부는 낮아지고 양쪽 꼬리는 좀 더 높은 종 형태(아래 그림 참고)

-자유도가 작을수록 꼬리부분이 높아지고, 자유도가 높을수록 표준정규분포에 가까워진다.

-이 자유도는 표본의 크기에 따라 결정(자유도 = n - 1)

•모분산을 모를 때 모평균의 신뢰구간 추정

-모분산, 즉 모표준편차를 모르기 때문에 모표준편차 σ 대신에 표본표준편차 s를 사용

-t통계량은 다음과 같이 쓸 수 있다.

<가설검정>

• 연구자가 추측하여 두 개 이상의 변수들 간의 잠정적인 관계를 나타냄

• 특징 : 연구자가 밝히고자 하는 사항은 선언문 형식으로 표현

• 사계) 광고는 매출액 증대에 긍정적 영향을 미친다.

- 대립가설(Ha) : 연구자가 주장하기 원하는 가설

- 귀무가설(Ho) : 대립가설의 반대내용으로 통계적 검증의 대상이 됨

--> 귀무가설을 기각하고 대립가설을 채택하기 위해 귀무가설의 잘못됨을 입증해야 함

--> 귀무가설 기각: 대립가설 채택

--> 귀무가설 기각하지 않음: 대립가설 기각

• 1종오류 : 귀무가설이 진실임에도 불구하고 기각하는 오류

•2종오류 : 귀무가설이 허위임에도 불구하고 기각하지 않는 오류

•가설(hypothesis)의 정의

-연구자가 모집단이 가지고 있는 어떤 특성(모수)에 관한 가정이나 주장을 실제 검증 이전에 하나의 문장으로 표현한 것. 귀무가설과 대립가설이 있음

•귀무가설(null hypothesis)

-어떤 주장이 잘못되었다는 것이 증명되지 않는 이상이 진실로 수용되는 것

-귀무가설은 집단 간 하나의 검정변수에 대해 평균의 차이가 존재하지 않는다든가, 혹은 두 변수 간 상호관련성이 없다는 등의 내용으로 이루어짐(H_0)

•대립가설(alternative hypothesis)

-연구자가 증명하고자 하는 혹은 채택시키고자 하는 내용으로 표현된 가설

-수집된 자료 분석을 통하여 하나의 객관적인 사실로 받아 들여지기를 바라는 내용으로 구성된 가설(H_1)

-대립가설이 사실이라고 증명이 되면 귀무가설은 기각되지만 그렇지 않은 경우에는 대립 연구 가설이 기각되고 대신 귀무가설이 수용

•가설검정 절차

1단계 : 가설설정

-연구가설 설정 : 입증하고자 하는 내용

-귀무가설 설정 : 입증하고자 하는 내용의 반대

-검증종류 설정 : 양측 or 단측

2단계 : 임계치 설정(가장 보편적으로 사용되는 알파값은 0.05(95% 신뢰수준))

-표본의 검증통계량의 값과 비교할 수 있는 기준(신뢰구간의 상,하한값)

-평균에 대한 가설 검증 : T 분포

-분산에 대한 가설 검증 : F 분포

3단계 : 검증통계량 결정

-표본에 따라 단위가 다르므로 이를 표준화시켜 계산한 값

-Z통계량(정규분포) : 단일집단에서 모집단의 분산 알고 표본크기가 큰 경우(N>30)

-T통계량(T분포) : 모집단의 분산 모르고 표본크기가 작은 경우

-F통계량 : 둘 이상 집단의 평균값비교시

-χ2 통계량 : 둘 이상 집단의 특성차이 비교시

4단계 : 가설채택 기준 결정

1) 유의수준(α) 결정

2) 가설검정

(1) 임계치를 이용한 가설검정

- 검정통계량 > 임계치 : 귀무가설 기각, 대립가설 채택

- 검정통계량 < 임계치 : 귀무가설 채택, 대립가설 기각

(2) p-value을 이용한 가설검정

- p-value > α 값 : 귀무가설채택, 대립가설 기각

- p-value < α 값 : 귀무가설 기각, 대립가설 채택

•유의수준(p-value)

•정의: 귀무가설이 진실이나 기각할 확률, 귀무가설을 기각하는 것이 잘못 될 확률, 대립가설을 채택하는 것이 잘못될 확률

-P-value = 0.7 : 귀무가설을 기각하는 것이 잘못될 확률이 0.7

-유의수준이 낮을수록 연구자는 자신있게 대립가설을 주장할 수 있음

-허용오차수준(α) : p-value의 허용수준, α= 0.05가 일반적

-p-value가 작을수록, α 가 클수록 귀무가설 기각 가능성 큼

저작자표시 비영리 변경금지 (새창열림)

'Data Analysis' 카테고리의 다른 글

다중 변수 시계열 분석(Temporal Fusion Transformers) (0)	2023.01.21
[통계] 회귀분석 (1)	2023.01.21
[통계] 확률과 확률분포 (0)	2023.01.19
Urban-GAN(2) (0)	2023.01.19
Urban-GAN(1) (0)	2023.01.18