본문 바로가기
Data Analysis

[통계] 통계 기초

by Urban communicator 2023. 1. 12.

1. 통계란 무엇인가? 

1) 통계를 왜 사용하나?
통계는 우리가 어떤 집단의 특성을 발견하고 싶은데, 극히 일부의 자료만 가지고 있기 때문에(e.g. 선거 여론조사, 인구 이동의 이유, 에너지 사용량 차이의 원인 … ) 모집단에 속한 일부 표본을 가지고 모집단의 특성을 파악하고자 할 때 사용한다. 
2) 통계 분석의 절차
통계 분석에는 일정한 절차가 필요하다. 문제를 인식하고, 문제를 해결하기 위해 가설을 설정하며, 어떤 방법론으로 문제 해결에 접근해야 할지에 관한 설계가 필요하다. 연구 설계 단계에서 자료를 어떻게 구하고, 어떤 통계 방법을 사용할지에 관하여 결정한다. 이후 데이터를 전 처리하고 설계된 모형을 토대로 분석을 수행하게 된다. 분석된 모형을 해석하는 것으로 모집단을 설명하며 분석이 마무리된다. 순서는 아래와 같다. 

(1) 연구문제 선정

(2) 연구가설 수립

(3) 연구 설계

- 자료 구득

- 방법론 선정

(4) 데이터 처리와 분석

(5) 해석

 

2. 통계의 기초개념

1) 모집단과 표본

(1) 모집단은 연구 대상이 되는 집단에 속한 변량 전체를 의미한다. 예를 들면, 대한민국 대통령 선거의 모집단은 대한민국 국민 전체가 된다. 

(2) 표본은 모집단을 추정하기 위해 선정된 일부의 집합을 의미한다. 예를 들면, 대통령 선거에서 어떤 후보가 우위에 있는지 확인하기 위해 1,000명을 대상으로 설문조사를 진행한다면, 1,000명이 이 모집단의 표본이 된다. 

 

아래 그림을 통해 쉽게 설명할 수 있다. 

2) 모수와 통계량

(1) 모수는 모집단의 특성을 나타내는 평균, 표준편차, 상관계수 등을 의미한다. 

(2) 통계량은 표본의 특성을 나타내는 평균, 표준편차, 상관계수 등을 의미한다. 

 

3) 통계의 종류

통계의 종류는 기술통계(description statistics)와 추론통계(inferential statistics)로 구분할 수 있다. 

(1) 기술통계는 수집된 데이터의 특성을 쉽게 파악할 수 있도록 데이터를 정리 및 요약하는 것을 말한다. 

(2) 추론통계는 확률이론에 기초하여 추출된 표본으로부터 모집단의 특성을 추정하는 방법을 말한다. 

 

4) 기술통계

기술통계는 모집단을 대표하는 표본이 대표값, 분산도 등의 지표와 그래프로 표현된 것을 말한다. 

(1) 대표값: 통계 집단을 대표할 수 있는 값(e.g.산술평균, 최빈치, 중위수…)
(2) 분산도: 산출된 평균값을 중심으로 개개의 변량들이 얼마나 밀집 또는 분산되어 있는가를 나타내는 분산 정도(e.g.표준편차, Box Plot, 사분위편차…)
(3) 왜도(Skewness): 데이터가 비대칭분포일 경우 분포유형의 비대칭 정도를 측정하는 지표
(4) 첨도(Kurtosis): 수직으로 얼마나 뾰족하게 봉우리가 분포되어 있는지 수치로 비교하는 지표

5) 추론통계

추론통계는 추정과 신뢰도를 통해 설명할 수 있다. 

 

(1) 추정이란? 

- 모집단에 관한 정보가 전혀 없는 상태에서 모집단을 대표할 수 있는 표본을 추출 추출된 표본 통계량을 구한 다음, 이를 이용하여 모집단의 모수를 예측하는 것
- 모집단은 크기가 너무 크기 때문에 전수조사를 하기 위해서는 엄청난 비용과 시간이 소요되며, 경우에 따라서는 전수조사가 불가능함
- 대부분의 경우 모집단을 대표할 수 있는 표본을 추출하여 그 표본의 통계량으로 모집단의 모수 추정
# 사례
- A대학교 학생의 평균 키를 추정하고자 할 경우 25,000명이 넘는 모집단인 A대학교 학생 전체를 조사하는 것은 어려움

- 학생들 중에서 100명을 표본으로 추출하여 구한 평균 키로 모집단인 A대학교 학생 전체의 평균 키를 추정하는 것

 
(2) 신뢰도란? 
- 모집단을 어느 정도 신뢰할 수 있느냐를 의미한다. 일반적으로 점추정(point estimation)과 구간추정(interval estimation)으로 구분한다. 
a. 점추정은 모수가 얼마일 것이라고 하나의 수치를 추정하는 것. 여기서 모수는 모평균, 모분산, 모표준변차, 모비율 등 모집단의 특성에 관한 수치들을 의미한다. 
 
b. 구간추정은 모수가 어느 값 a와 어느 값 b 사이, 즉 어떤 구간 내에 몇 %의 확률로 존재할 것이라고 추정하는 것. 그 확률을 신뢰수준(confidence level) 또는 신뢰도라고 부르고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 부른다. 
 
) 국회의원 혹은 지방자치단체장 선거 때 언론에서 A후보이 지지율이 36%이고 오차범위는 95% 신뢰수준에서 신뢰구간 ±3%라고 했을 때 이 말의 의미는 A후보의 지지율이 33%에서 39% 구간에 있을 확률이 95%라는 의미

 

 

'Data Analysis' 카테고리의 다른 글

[ML] Shapley Value의 머신러닝 적용  (0) 2023.01.13
[ML] SHAP 소개  (3) 2023.01.13
다중공선성이란? 제거하는 방법은?  (0) 2023.01.11
기계학습과 다중공선성  (0) 2023.01.11
공간 클러스터링: 종류와 사용  (0) 2021.08.20

댓글