Data Analysis33 통계, 머신러닝 및 딥러닝 소개(2) 통계, 머신러닝, 딥러닝 관련해서 최근 핫한 주제와 내용에 관하여 조금 더 소개해 보고자 한다. 5. AI의 윤리: 기계 학습에서 공정성과 편견 없는 모델 보장 6. 심층 학습을 통한 시계열 예측 소개: LSTM 및 GRU 7. 딥 러닝 모델 시각화 및 이해: TensorBoard, 돌출 맵 등 8. 사기 탐지를 위한 기계 학습 사용: Python의 사례 연구 9. 딥 러닝에서 생성적 적대 신경망(GAN) 탐색 10. 머신 러닝 모델 최적화: 하이퍼파라미터 튜닝, 조기 중지 등 5. AI의 윤리: 기계 학습에서 공정성과 편견 없는 모델 보장 인공 지능 (AI)은 빠르게 혁신과 경제 성장의 주요 원동력이되고 있습니다. 기계 학습 알고리즘은 금융 서비스, 의료 및 형사 사법과 같은 광범위한 응용 프로그램에 .. 2023. 2. 2. 통계, 머신러닝 및 딥러닝 소개(1) 이 블로그는 통계, 머신러닝 및 딥러닝 관련 컨텐츠를 다루고 있다. 앞으로 아래 나열한 현재 매우 빈번하고 중요하게 사용되는 주제를 간략하게 소개하고 설명하고자 한다. 1. 비지도 기계 학습 알고리즘 탐색: K-평균 클러스터링, PCA 등 2. 딥 러닝 초보자 가이드: 신경망, 컨볼루션 신경망, 순환 신경망 3. 감정 분석에서 기계 학습을 사용하는 방법: Python의 사례 연구 4. 기계 학습을 통한 추천 시스템 구축: 콘텐츠 기반 필터링 및 협업 필터링 5. AI의 윤리: 기계 학습에서 공정성과 편견 없는 모델 보장 6. 심층 학습을 통한 시계열 예측 소개: LSTM 및 GRU 7. 딥 러닝 모델 시각화 및 이해: TensorBoard, 돌출 맵 등 8. 사기 탐지를 위한 기계 학습 사용: Pytho.. 2023. 1. 31. [통계] 구조방정식(1) 구조방정식이란? •인과관계 추론을 위한 대표적인 분석기법 •직접 관찰이 불가능한 잠재변수의 측정도구(예: 설문문항)의 타당성을 확인하고, 동시에 잠재변수 간의 관계에 대해 연구자가 논리적으로 수립한 가설을 경험적으로 검정할 수 있는 강력한 분석기법 •관찰변수와 잠재변수 간의 관계를 다루는 측정모형(measurement model)과 잠재변수와 잠재변수 간의 관계를 다루는 구조모형(structural mode)을 동시에 분석 •표본에서 관찰된 공분산(행렬)과 연구모형으로 예측한 공분산(행렬)간의 차이를 가능한 한 적게 하고자 하는 분석법 구조방정식은 측정관계를 분석하는 확인적 요인분석(confirmatory factor analysis: CFA)과 구조관계를 분석하는 경로분석(path analysis)을 .. 2023. 1. 28. [통계] 요인분석 •탐색적요인분석(EFA: exploratory factor analysis) -새로운 요인을 추출하고 할 때 사용 •확인적요인분석(CFA: Confirmatory factor analysis) -이론으로 정해진 모형이 적절한지 확인할 때 사용 • 탐색적 요인분석 -탐색적 요인분석은 많은 변수의 상호관련성을 소수의 기본적인 요인으로 집약하는 방법의 하나로 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고 그 집단의 특성이 무엇인가를 기술하려는 통계기법 -높은 상관성을 가진 많은 변수들을 새로운 변수군으로 묶는데 초점 -심각한 다중 공선성 문제를 해결하는데 사용 • 요인분석을 하는 이유 1)데이터 양을 줄여 정보를 요약 2)변.. 2023. 1. 27. [통계] 모델 검증 •개발된 모델이 데이터를 잘 설명하는지 평가 -학습 – 모의고사 – 시험 으로 이해 -학습 데이터로 모델을 생성한 뒤 중간과정 없이 테스트 데이터로 모델을 평가하면 과적합/과소적합이 발생할 수 있음 -모델이 이미 테스트 데이터를 학습하였기 때문에 모델 개선 후 다시 테스트할 수 있는 방도가 없음 -따라서, 중간에 Validation dataset을 만들어서 검증 •종류 -Holdout -K-fold cross validation -Leave-one-out cross validation (LOOCV) •Holdout -전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 일부를 검증 데이터셋으로 또 분리하는 방법 -즉, 전체 데이터를 3개(학습 데이터, 검증 데이터, 테스트 데이터)로 분류 -가장.. 2023. 1. 26. [통계] 모델 선택 및 PCA •변수 선택이 필요한 이유 -해석이 복잡 -과적합(Overfitting) 문제 발생 -변수간 다중공선성(Multicolinearity) 발생 -데이터 분석 시간 증가 - •해결 방안 -전 모형 탐색법(All possible subset regression) -단계별 변수 선택 -주성분분석 •전 모형 탐색법 -변수가 P개인 경우 이를 이용해 만들 수 있는 모든 모형의 개수는 일차항만 고려할 경우 2P 개 -전모형 탐색법이란 2P 개의 모든 모형의 점수를 구하여 가장 최적의 모형을 찾는 방법을 의미 -보통 P ≤ 30일 때 사용 - •방법 -Adjusted R2 -AIC BIC •회귀모형 -y: dependent variable -x: predictor variables -i: 1,2,…,n -K: numb.. 2023. 1. 26. 이전 1 2 3 4 5 6 다음