전체 글50 [ML] Shapley Value의 머신러닝 적용 플레이어의 Shapley 값을 기계 학습 모델의 기능과 어떻게 연관시킬 수 있습니까? 그림 5와 같이 N개의 행과 M개의 기능이 있는 데이터 세트가 있다고 가정합니다. 여기서 Xᵢ는 데이터 세트의 i번째 특징이고 xᵢ⁽ʲ⁾는 j번째 예에서 i번째 특징의 값이며 y⁽ʲ⁾는 j번째 행의 대상입니다. 기능 값은 M 요소가 있는 행 벡터로 표시되는 기능 벡터를 형성할 수 있습니다. 여기에 X₁=x₁, X₂=x₂, ... X_M=x_M이 있습니다(선형 대수학에서 벡터는 일반적으로 열 벡터로 간주되지만 이 문서에서는 행 벡터라고 가정합니다). 특징 벡터는 데이터 세트의 j번째 행이 될 수도 있습니다. 이 경우 다음과 같이 작성할 수 있습니다. 또는 데이터 세트에 없는 테스트 데이터 포인트일 수 있습니다(이 문서에서.. 2023. 1. 13. [ML] SHAP 소개 SHAP는 기계 학습 모델의 예측을 설명하는 수학적 방법입니다. 게임 이론을 기반으로 하며 예측에 대한 각 기능의 기여도를 계산하여 기계 학습 모델의 예측을 설명하는 데 사용할 수 있습니다. SHAP는 가장 중요한 변수를 찾고, 변수가 모델 예측에 미치는 영향을 확인할 수 있습니다. SHAP는 그 이면에 있는 수학을 설명하지 않고는 완전히 이해할 수 없습니다. 이에 여기에서는 수학 식 뒤에 숨겨진 직관을 설명하고 각 주제에 대한 몇 가지 예를 제공함으로써 가능한 한 수학적 설명을 단순화하려고 노력합니다. 또한 작동 방식을 완전히 이해하는 데 도움이 되도록 Python을 사용하여 처음부터 다양한 SHAP 알고리즘을 구현합니다. Python의 SHAP 라이브러리 여기에서는 SHAP 값을 계산하는 데 사용할 .. 2023. 1. 13. [통계] 통계 기초 1. 통계란 무엇인가? 1) 통계를 왜 사용하나? 통계는 우리가 어떤 집단의 특성을 발견하고 싶은데, 극히 일부의 자료만 가지고 있기 때문에(e.g. 선거 여론조사, 인구 이동의 이유, 에너지 사용량 차이의 원인 … ) 모집단에 속한 일부 표본을 가지고 모집단의 특성을 파악하고자 할 때 사용한다. 2) 통계 분석의 절차 통계 분석에는 일정한 절차가 필요하다. 문제를 인식하고, 문제를 해결하기 위해 가설을 설정하며, 어떤 방법론으로 문제 해결에 접근해야 할지에 관한 설계가 필요하다. 연구 설계 단계에서 자료를 어떻게 구하고, 어떤 통계 방법을 사용할지에 관하여 결정한다. 이후 데이터를 전 처리하고 설계된 모형을 토대로 분석을 수행하게 된다. 분석된 모형을 해석하는 것으로 모집단을 설명하며 분석이 마무리된다.. 2023. 1. 12. [R] 설치하기 R은 통계 분석과 그래픽을 위한 언어이자 환경이다. 몇 가지 장점이 있는데, 1) 오픈소스로 무료로 사용할 수 있는데, 원하는 모든 패키지가 오픈소스로 제공되고(데이터 전처리, 통계, 머신러닝 등), 2) 다양하고 화려한 그래픽 기능을 제공해주며, 3) 커뮤니티를 통해 맞닥뜨린 문제를 원활히 해결할수 있다. 1. R을 다운받기 위해서 아래 사이트에 접속한다 http://www.r-project.org/ R: The R Project for Statistical Computing www.r-project.org 2. Download 카테고리에 CRAN을 클릭하면, 3. 나의 OS에 따라 선택하여 다운받을 수 있다. 윈도우에 설치하고 싶으면, Download R for Windows를 클릭한다. 4. 아래와.. 2023. 1. 12. 다중공선성이란? 제거하는 방법은? 소개 기계 학습과 딥 러닝의 발전으로, 전통적인 통계학에서 처리하지 못했던 문제를 처리할 수 있게 되었습니다. 그러나 이러한 고급 및 복잡한 알고리즘은 또 다른 문제를 발생시켰습니다. 기계 학습 모델의 해석 가능성과 관련하여 선형 회귀의 단순성과 해석 가능성에 가까운 것은 없습니다. 그러나 특히 다중공선성으로 알려진 선형 회귀의 가정이 위반 될 때 선형 회귀의 해석 가능성과 관련하여 특정 문제가있을 수 있습니다. 이 글은 독자가 선형 회귀의 가정에 익숙하다고 가정 하에 진행합니다. 만약 선형회귀에 익숙하지 않은 분이라면 아래 링크를 참조하여“선형 회귀의 가정”에 대한 자세한 내용을 확인하십시오. https://www.analyticsvidhya.com/blog/2016/07/deeper-regressio.. 2023. 1. 11. 기계학습과 다중공선성 단순한 선형 회귀와 다중 회귀 사이의 가정의 유일한 차이는 다중공선성 문제입니다. 다중공선성이란 무엇입니까? 독립 변수 간에 높은 상관 관계가 있을 때, 우리는 일반적으로 다중공선성 또는 상호 상관의 문제가 존재한다고 말합니다. 다중공선성을 감지는 여러 가지 방법이 있습니다. 그중 한 가지 방법은 아래와 같이 상관 행렬을 사용하는 것입니다. 매트릭스는 꽃 잎 길이(petal length, cm)와 꽃 잎 너비(petal width, cm) 사이의 높은 상관 관계를 명확하게 보여줍니다. 다중공선성을 발견하는 또 다른 방법은 분산 인플레이션 계수(VIF)를 계산하는 것입니다. 모델 해석 일반적으로 모델 해석입니다. 목표는 독립 변수 중 하나에서 변경이 발생할 때 종속의 영향 또는 변경을 이해하는 것입니다. .. 2023. 1. 11. 이전 1 ··· 5 6 7 8 9 다음