본문 바로가기

Data Analysis32

통계, 머신러닝 및 딥러닝 소개(1) 이 블로그는 통계, 머신러닝 및 딥러닝 관련 컨텐츠를 다루고 있다. 앞으로 아래 나열한 현재 매우 빈번하고 중요하게 사용되는 주제를 간략하게 소개하고 설명하고자 한다. 1. 비지도 기계 학습 알고리즘 탐색: K-평균 클러스터링, PCA 등 2. 딥 러닝 초보자 가이드: 신경망, 컨볼루션 신경망, 순환 신경망 3. 감정 분석에서 기계 학습을 사용하는 방법: Python의 사례 연구 4. 기계 학습을 통한 추천 시스템 구축: 콘텐츠 기반 필터링 및 협업 필터링 5. AI의 윤리: 기계 학습에서 공정성과 편견 없는 모델 보장 6. 심층 학습을 통한 시계열 예측 소개: LSTM 및 GRU 7. 딥 러닝 모델 시각화 및 이해: TensorBoard, 돌출 맵 등 8. 사기 탐지를 위한 기계 학습 사용: Pytho.. 2023. 1. 31.
[통계] 구조방정식(1) 구조방정식이란? •인과관계 추론을 위한 대표적인 분석기법 •직접 관찰이 불가능한 잠재변수의 측정도구(예: 설문문항)의 타당성을 확인하고, 동시에 잠재변수 간의 관계에 대해 연구자가 논리적으로 수립한 가설을 경험적으로 검정할 수 있는 강력한 분석기법 •관찰변수와 잠재변수 간의 관계를 다루는 측정모형(measurement model)과 잠재변수와 잠재변수 간의 관계를 다루는 구조모형(structural mode)을 동시에 분석 •표본에서 관찰된 공분산(행렬)과 연구모형으로 예측한 공분산(행렬)간의 차이를 가능한 한 적게 하고자 하는 분석법 구조방정식은 측정관계를 분석하는 확인적 요인분석(confirmatory factor analysis: CFA)과 구조관계를 분석하는 경로분석(path analysis)을 .. 2023. 1. 28.
[통계] 요인분석 •탐색적요인분석(EFA: exploratory factor analysis) -새로운 요인을 추출하고 할 때 사용 •확인적요인분석(CFA: Confirmatory factor analysis) -이론으로 정해진 모형이 적절한지 확인할 때 사용 • 탐색적 요인분석 -탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법 -높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점 -심각한 다중 공선성 문제를 해결하는데 사용 • 요인분석을 하는 이유 1)데이터 양을 줄여 정보를 요약 2)변.. 2023. 1. 27.
[통계] 모델 검증 •개발된 모델이 데이터를 잘 설명하는지 평가 -학습 – 모의고사 – 시험 으로 이해 -학습 데이터로 모델을 생성한 뒤 중간과정 없이 테스트 데이터로 모델을 평가하면 과적합/과소적합이 발생할 수 있음 -모델이 이미 테스트 데이터를 학습하였기 때문에 모델 개선 후 다시 테스트할 수 있는 방도가 없음 -따라서, 중간에 Validation dataset을 만들어서 검증 •종류 -Holdout -K-fold cross validation -Leave-one-out cross validation (LOOCV) •Holdout -전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 일부를 검증 데이터셋으로 또 분리하는 방법 -즉, 전체 데이터를 3개(학습 데이터, 검증 데이터, 테스트 데이터)로 분류 -가장.. 2023. 1. 26.
[통계] 모델 선택 및 PCA •변수 선택이 필요한 이유 -해석이 복잡 -과적합(Overfitting) 문제 발생 -변수간 다중공선성(Multicolinearity) 발생 -데이터 분석 시간 증가 - •해결 방안 -전 모형 탐색법(All possible subset regression) -단계별 변수 선택 -주성분분석 •전 모형 탐색법 -변수가 P개인 경우 이를 이용해 만들 수 있는 모든 모형의 개수는 일차항만 고려할 경우 2P 개 -전모형 탐색법이란 2P 개의 모든 모형의 점수를 구하여 가장 최적의 모형을 찾는 방법을 의미 -보통 P ≤ 30일 때 사용 - •방법 -Adjusted R2 -AIC BIC •회귀모형 -y: dependent variable -x: predictor variables -i: 1,2,…,n -K: numb.. 2023. 1. 26.
[통계] 판별분석 •개념 -설명변수를 통해 선형판별함수를 도출하여 2개 이상의 그룹을 구분 및 예측함 -등간 척도나 비율 척도로 측정된 독립변수를 이용해 명목척도 또는 서열척도로 측정된 종속변수를 분류 •종류 -종속변수의 집단수가 2개인 경우: two-group discriminant analysis -종속변수의 집단수가 3개 이상인 경우: multiple discriminant analysis •분류(classification)와의 차이점 1)분류: 대상이 몇 개의 그룹으로 나뉘어 지는지 자료를 보기 전까지는 모름 2)판별: 존재하는 그룹의 수를 알고 있고, 새로운 대상이 어느 그룹에 속하는지 결정 •가설 -귀무가설: 두 개 또는 그 이상의 집단의 평균이 동일하다. -대립가설: 두 개 또는 그 이상의 집단의 평균이 동일.. 2023. 1. 25.