본문 바로가기
Data Analysis

설명가능한 인공지능(XAI) 관련 설명(2)

by Urban communicator 2023. 1. 16.

XAI 관련 설명(1)

XAI 관련 설명(3)

XAI 관련 설명(4)

XAI 관련 설명(5)

 

3. Transparent machine learning models

이전 섹션에서는 투명 모델의 개념을 소개했습니다. 모델은 그 자체로 이해할 수있는 경우 투명한 것으로 간주됩니다. 이 섹션에서 조사 된 모델은 이전에 설명한 모델 투명성 수준 (, 시뮬레이션 성, 분해 성 및 알고리즘 투명성)의 한 수준에 속할 수있는 투명 모델의 소송입니다. 다음에 우리는이 진술에 대한 이유를 제공하며, 그림 5에 주어진 그래픽 지원이 있습니다.

 

3.1. Linear/logistic regression

로지스틱 회귀 (LR)는 이분법 (이진) 인 종속 변수 (범주)를 예측하는 분류 모델입니다. 그러나 종속 변수가 연속적 일 때 선형 회귀는 동종이 될 것입니다. 이 모델은 예측 변수와 예측 변수 사이의 선형 의존성을 가정하여 데이터에 유연하게 적합하다는 것을 방해합니다. 이 특정한 이유 (모델의 강성)는 투명한 방법의 우산 아래에서 모델을 유지하는 것입니다. 그러나 섹션 2에 명시된 바와 같이, 설명 가능성은 특정 잠재 고객과 관련이 있으며, 이는 모델이 해석 할 사람에 따라 두 범주에 속합니다. 이런 식으로, 로지스틱 및 선형 회귀는 투명 모델의 특성 (알고리즘 투명성, 분해 성 및 시뮬레이션 성)의 특성을 명확하게 충족하지만, 특히 모델이 비에 대해 설명 될 때 사후 설명 가능성 기술 (주로 시각화)을 요구할 수 있습니다. 전문가 관객. 이 모델의 사용은 오랫동안 사회 과학 내에서 크게 적용되었으며, 이로 인해 연구원들은 모델의 결과를 비 경험적 사용자에게 설명하는 방법을 만들도록 강요했습니다. 대부분의 저자는 전체 모델 평가, 개별 예측 변수의 통계 테스트, 적합성 통계 및 예측 확률의 검증을 포함하여 LR의 건전성을 분석하고 표현하는 데 사용되는 다양한 기술에 동의합니다 [174–177]. 전체 모델 평가는 기준선을 통해 적용된 모델의 제공을 보여 주며, 실제로 예측없이 모델을 개선하고 있는지 보여줍니다. 단일 예측 변수의 통계적 유의성은 Wald Chi-Square 통계를 계산하여 표시됩니다. 적합성 통계는 데이터에 대한 모델의 체력의 품질과 이것이 얼마나 중요한지를 보여줍니다. 이것은 다른 기술에 의지하여 달성 할 수 있습니다. 소위 Hosmer – Lemeshow (H-L) 통계. 예측 확률의 검증은 모델의 출력이 데이터에 의해 표시되는 내용에 해당하는지 여부를 테스트하는 것입니다. 이러한 기술은 모델의 체력과 행동을 나타내는 수학적 방법을 보여줍니다.

 

 

이러한 회귀 모델을 설명하기 위해 통계 외에 다른 분야의 다른 기술을 채택 할 수 있습니다. 통계에 정통하지 않은 사용자에게 통계적 결론을 제시 할 때 시각화 기술은 매우 강력합니다. 예를 들어, [178]의 연구는 결과를 전달할 확률의 사용이 고유 주파수를 사용할 때 사례의 46%와 달리 10%의 경우 결과를 올바르게 추정 할 수있는 사용자가 암시한다는 것을 암시했다. . 로지스틱 회귀는 감독 학습에서 가장 간단한 분류 모델 중 하나이지만, 처리해야 할 개념이 있습니다. 이 추론에서, [179]의 저자들은 LR에서 파생 된 해석에 대한 우려를 공개한다. 그들은 먼저 로그 배당률과 홀수 비율을 실질적인 효과로 해석하는 것이 얼마나 위험한 지 언급합니다. 이 첫 번째 관심사와 관련하여, [179]는 또한 다른 변수를 가진 모델에 걸친 이러한 비율 사이의 비교가 문제가 될 수 있다고 말합니다. 마지막으로 그들은 또한 이들 확률의 비교가

이질성의 변화가 샘플, 그룹 및 시점에 걸쳐 알려지지 않기 때문에 다른 샘플에서 그룹과 시간도 위험합니다. 이 마지막 논문은 모델의 해석이 LR의 구성만큼 간단한 경우에도 모델의 해석이 수반 할 수있는 문제를 시각화하는 목적을 제공합니다. 또한 분해 성 및 시뮬레이션 성을 유지하기위한 로지스틱 또는 선형 회귀와 같은 모델의 경우 크기가 제한되어야하며 사용 된 변수는 사용자가 이해할 수 있어야합니다. 섹션 2에 명시된 바와 같이, 모델에 대한 입력이 복잡하거나 이해하기 어려운 고도로 엔지니어링 된 기능이라면, 현재 모델은 분해 가능하지 않습니다. 마찬가지로, 모델이 너무 커서 인간이 모델을 전체적으로 생각할 수 없다면 시뮬레이션 가능성이 의문을 제기 할 것입니다.

 

3.2. Decision trees

의사 결정 트리는 투명성을위한 모든 제약을 쉽게 충족시킬 수있는 모델의 또 다른 예입니다. 의사 결정 트리는 회귀 및 분류 문제를 지원하는 데 사용되는 의사 결정을위한 계층 적 구조입니다 [132,180]. 가장 간단한 맛에서 의사 결정 트리는 시뮬레이션 가능한 모델입니다. 그러나 그들의 특성은 분해 가능하거나 알고리즘 적으로 투명하게 만들 수 있습니다. 의사 결정 트리는 항상 투명한 모델의 다양한 범주 사이에서 남아 있습니다. 그들의 활용은 의사 결정 맥락과 밀접한 관련이 있었으며, 그들의 복잡성과 이해가 항상 가장 중요한 문제로 간주 된 이유입니다. 이러한 관련성에 대한 증거는 의사 결정 트리 단순화 및 세대를 다루는 문헌에 대한 기여의 상실에서 찾을 수있다 [132,180-182]. 위에서 언급 한 바와 같이, 투명한 모델 내에서 모든 범주에 적합 할 수는 있지만 의사 결정 트리의 개별 특성은 알고리즘 적으로 투명한 모델의 범주를 향해 밀어 넣을 수 있습니다. 시뮬레이션 가능한 의사 결정 트리는 인간 사용자가 관리 할 수있는 것입니다. 이것은 크기가 다소 작고 기능의 양과 그 의미를 쉽게 이해할 수 있음을 의미합니다. 크기가 증가하면 크기가 인간의 전체 평가 (시뮬레이션)를 방해하기 때문에 모델을 분해 가능한 모델로 변환합니다. 마지막으로, 크기를 더욱 증가시키고 복잡한 기능 관계를 사용하면 모델 알고리즘으로 투명하게 투명하게 투명합니다. 의사 결정 트리는 기성품 투명성으로 인해 의사 결정 지원 상황에 오랫동안 사용되어 왔습니다. 이러한 모델의 많은 응용 프로그램은 계산 분야와 AI (심지어 정보 기술)에서 벗어나는데, 이는 다른 분야의 전문가가 일반적으로 이러한 모델의 출력을 해석하는 데 편안하다고 느낍니다 [183–185]. 그러나 다른 모델과 비교할 때 일반화가 열악한 속성은이 모델 가족이 예측 성능 간의 균형이 가장 중요한 설계 드라이버 인 시나리오에 적용하는 데 덜 흥미 롭습니다. 트리 앙상블은 훈련 데이터의 여러 하위 집합에서 배운 나무에 의해 수행 된 예측을 집계함으로써 이러한 불량 성능을 극복하는 것을 목표로합니다. 불행히도, 의사 결정 트리의 조합은 모든 투명한 속성을 느끼게하여 원고에서 나중에 검토 한 것처럼 사후 설명 가능성 기술을 채택해야합니다.

 

3.3. K-Nearest Neighbors

투명한 모델에 해당하는 또 다른 방법은 K- 가장 가까운 이웃 (KNN)의 방법으로, 방법 론적으로 간단한 방식으로 분류 문제를 다루는 방법입니다. 가장 가까운 이웃의 클래스에 투표하여 테스트 샘플의 클래스를 예측합니다. 관계는 샘플 사이의 거리 측정에 의해 유도된다). 회귀 문제의 맥락에서 사용될 때, 투표는 가장 가까운 이웃과 관련된 대상 값의 집계 ( : 평균)로 대체됩니다. 모델 설명의 관점에서, KNN 모델에 의해 생성 된 사전 사례가 거리의 개념과 예제 간의 유사성에 의존한다는 것을 관찰하는 것이 중요하며, 이는 해결중인 특정 문제에 따라 맞춤화 될 수 있습니다. 흥미롭게도,이 예측 접근법은 과거의 유사한 사례의 결과를 결정하는 경험 기반 인간 의사 결정의 접근 방식과 유사합니다. KNN이 모델 해석 성이 요구되는 상황에서 널리 채택 된 이유에 대한 근거가있다 [186-189]. 또한 설명하기가 간단한 것 외에도, 새로운 샘플이 그룹 내에서 분류 된 이유를 검사하고 이웃 K의 수가 증가하거나 감소 할 때 이러한 예측이 어떻게 진화하는지 조사하는 능력은 사용자와 사용자와 감소 할 때 어떻게 진화하는지 조사하는 능력입니다. 모델. 앞에서 언급했듯이 KNN의 투명성 클래스는 기능, 이웃 수 및 데이터 인스턴스 간의 유사성을 측정하는 데 사용되는 거리 함수에 달려 있음을 명심해야합니다. 매우 높은 K는 인간 사용자의 모델 성능을 완전히 시뮬레이션합니다. 마찬가지로, 복잡한 특징 및/또는 거리 함수의 사용은 모델의 분해성을 방해하여 해석 성을 알고리즘 작업의 투명성으로 만 제한합니다.

 

3.4. Rule-based learning

규칙 기반 학습은 학습하려는 데이터를 특성화하기위한 규칙을 생성하는 모든 모델을 말합니다. 규칙은 간단한 조건부 if-then 규칙의 형태 또는 간단한 규칙의 더 복잡한 조합을 취하기 위해 간단한 규칙의 조합을 취할 수 있습니다. 또한이 일반 모델 패밀리에 연결된 퍼지 규칙 기반 시스템은 더 넓은 행동 범위를 위해 설계되어 부정확 한 영역에 대한 구두 공식 규칙의 정의를 허용합니다. 퍼지 시스템은이 백서와 관련된 두 가지 주요 축을 개선합니다. 첫째, 그들은 언어 적 용어로 작동하기 때문에 더 이해하기 쉬운 모델을 강화합니다. 둘째, 그들은 특정 수준의 불확실성으로 맥락에서 고전적인 규칙 시스템을 더 잘 수행합니다. 규칙 기반 학습자는 예측을 설명하는 규칙을 생성함으로써 복잡한 모델을 평범한 복잡한 모델에 사용하는 데 종종 사용 된 투명한 모델입니다 [126,127,190,191]. 규칙 학습 접근법은 전문가 시스템의 지식 표현에 광범위하게 사용되었습니다 [192]. 그러나 규칙 생성 접근법의 중심 문제는 생성 된 규칙의 적용 범위 (금액) 및 특이성 (길이)입니다. 이 문제는 처음에 사용하려는 의도와 직접 관련이 있습니다. 규칙 데이터베이스를 구축 할 때 사용자가 추구하는 일반적인 설계 목표는 모델을 분석하고 이해할 수 있어야합니다. 모델의 규칙의 양은 그 정수성을 손상시킬 때 모델의 성능을 분명히 증명할 것입니다. 마찬가지로, 규칙의 특이성은 또한 많은 수의 선행자가있는 규칙이 해석하기 어려울 수 있기 때문에 해석 가능성에 반대합니다. 이 같은 추론에서, 규칙 기반 학습자 의이 두 가지 특징은 섹션 2에 제시된 투명 모델의 클래스와 함께 재생됩니다. 적용 범위 또는 특이성이 클수록 모델이 알고리즘 적으로 투명해질 것입니다. 때로는 고전적인 규칙에서 퍼지 규칙으로 전환하는 이유는 규칙 크기의 제약을 완화하기 때문입니다. 해석 가능성에 대한 스트레스가 줄어들 수 있기 때문입니다. 규칙 기반 학습자는 분야의 해석 가능성 측면에서 훌륭한 모델입니다. 인간 행동과의 자연스럽고 원활한 관계는 다른 모델을 이해하고 설명하기에 매우 적합합니다. 특정 적용 범위 임계 값이 획득되면, 규칙 래퍼는 생성 된 규칙을 독립형 예측 모델로 사용할 가능성을 상실하지 않고 Expert 사용자에게 동작을 설명 할 수있는 모델에 대한 충분한 정보를 포함하는 것으로 생각 될 수 있습니다.

 

3.5. General additive models

통계에서, 일반화 된 부가 모델 (GAM)은 예측 될 변수의 값이 예측 변수에 대해 정의 된 다수의 알려지지 않은 부드러운 함수의 집계에 의해 주어진 선형 모델이다. 이러한 모델의 목적은 골재 조성이 예측 변수에 근사한 부드러운 함수를 추론하는 것입니다. 이 구조는 쉽게 해석 할 수 있습니다. 사용자는 각 변수의 중요성, 즉 예측 된 출력에 영향을 미치는 방법 (해당 함수를 통해)에 미치는 영향을 확인할 수 있습니다. 다른 모든 투명 모델과 마찬가지로, 문헌은 특히 위험 평가와 관련된 분야에서 게임을 사용하는 사례 연구로 가득 차 있습니다. 다른 모델과 비교할 때, 이들은 금융 [193–195], 환경 연구 [196], 지질학 [197], 건강 관리 [44], 생물학 [198,199] 및 에너지 [200]. 이러한 기여의 대부분은 시각화 방법을 사용하여 모델의 해석을 더욱 쉽게 해줍니다. 정의에 언급 된 속성이 충족되면 GAM은 시뮬레이션 가능하고 분해 가능한 모델로 간주 될 수 있지만 예측 된 것과 집계를 관련시키기위한 링크 기능의 도입과 같은 기준 GAM 모델에 대한 최종 수정에 의존하는 정도까지 출력 또는 예측 변수 간의 상호 작용 고려. 대체로, 위에서 예시 된 것과 같은 게임의 응용 프로그램은 하나의 공통 요소 인 이해 가능성을 공유합니다. GALS와 함께 이러한 연구를 수행하는 주요 원동력은 조사 사례를 구축하는 근본적인 관계를 이해하는 것입니다. 그러한 경우 연구 목표는 자체적으로 정확하지 않고, 뒤에있는 문제와 데이터와 관련된 변수 아래의 관계를 이해해야 할 필요성입니다. 이것이 바로 더 복잡한 상대와 비교할 때 인정 된 오해의 행동에도 불구하고 특정 지역 사회에서 사실상 모델링 선택으로 받아 들여진 이유입니다.

 

3.6. Bayesian models

베이지안 모델은 일반적으로 링크가 변수 세트 사이의 조건부 종속성을 나타내는 확률 론적 지시 된 acyclic 그래픽 모델의 형태를 취합니다. 예를 들어, 베이지안 네트워크는 질병과 증상 사이의 확률 론적 관계를 나타낼 수 있습니다. 증상이 주어지면 네트워크를 사용하여 다양한 질병의 존재 확률을 계산할 수 있습니다. GAM과 유사하게,이 모델은 또한 기능과 대상 간의 관계를 명확하게 표현하는 것을 전달하며,이 경우 변수를 서로 연결하여 명시 적으로 제공됩니다. 다시 한번, 베이지안 모델은 투명 모델의 천장 아래로 떨어집니다. 그것의 분류는 그것을 시뮬레이션 가능하고 분해 가능하며 알고리즘으로 투명하게 남겨 둡니다. 그러나 특정 상황 (지나치게 복잡하거나 번거로운 변수)에서 모델이 처음 두 속성을 잃을 수 있다는 점은 주목할 가치가 있습니다. 베이지안 모델은인지 모델링 [201,202], 어업 [196,203], 게임 [204], 기후 [205], 경제학 [206] 또는 로봇 [207]과 같은 다양한 응용 분야에서 큰 통찰력을 가져 오는 것으로 나타났습니다. 더욱이, 그들은 또한 평균 트리 앙상블과 같은 다른 모델을 설명하는 데 사용되었습니다 [208].

 

4. Post-hoc explainability techniques for machile learning models: Taxonomy, shallow models and deep learning

ML 모델이 투명하게 결정하기 위해 부과 된 기준을 충족하지 않으면 별도의 방법을 고안하고 모델에 적용하여 결정을 설명해야합니다. 이것은 이미 개발 된 모델이 주어진 입력에 대한 예측을 어떻게 생성하는지에 대한 이해 가능한 정보를 전달하는 것을 목표로하는 사후 설명 성 기술 (포스트 모델링 설명 가능성이라고도 함)의 목적입니다. 이 섹션에서 우리는 사후 설명 가능성에 대한 다양한 알고리즘 접근법을 분류하고 검토하며, 1) 모든 종류의 ML 모델에 적용하도록 설계된 것 중에서 차별합니다. 그리고 2) 특정 ML 모델을 위해 설계된 것들을 다른 학습자에게 직접 외삽 할 수는 없다. 우리는 이제 다른 ML 모델에 대한 사후 설명 가능성을 중심으로 식별 된 추세에 대해 자세히 설명하며, 이는 계층 적 서지 범주의 형태로 그림 6에 설명되어 다음에 요약된다.

• 사후 설명 가능성을위한 모델 비석 기법 (섹션 4.1). 내부 처리 또는 내부 표현을 무시하는 ML 모델에 완벽하게 적용 할 수 있습니다.

• 특정 ML 모델을 설명하기 위해 맞춤화되거나 특별히 설계된 사후 설명. 우리는 우리의 문헌 분석을 두 가지 주요 지점으로 나눕니다. 얕은 ML 모델의 사후 설명 가능성을 다루는 기여는 신경 처리 장치의 층 구조에 힌지되지 않은 모든 ML 모델을 집합 적으로 지칭한다 (섹션 4.2); 그리고 컨볼 루션 신경 네트워크, 재발 성 신경망 (4.3 ) 및 심층 신경망 및 투명 모델을 포함하는 하이브리드 체계와 같은 신경망 및 관련 변형의 패밀리를 나타내는 딥 러닝 모델에 고안된 기술. 각 모델에 대해 우리는 리 검색 커뮤니티가 제안한 최신 사후 방법을 철저히 검토하고 트렌드의 식별과 그러한 기여를 식별합니다.

• 우리는 섹션 4.4로 문헌 분석을 종료합니다. 여기서 우리는 딥 러닝 모델의 사후 설명을 다루는 기여를 분류함으로써 그림 6의보다 일반적인 분류를 보완하는 두 번째 분류법을 제시합니다. 이를 위해 우리는이 블랙 박스 ML 방법 패밀리와 관련된 특정 측면에 초점을 맞추고, 첫 번째 분류법에 사용 된 분류 기준에 어떻게 연결되는지 노출시킵니다.

 

4.1. Model-agnostic techniques for post-hoc explainability

사후 설명 가능성을위한 모델 공제 기술은 예측 절차에서 일부 정보를 추출하려는 의도로 모든 모델에 연결되도록 설계되었습니다. 때때로, 단순화 기술은 트랙 가능한 무언가와 복잡성을 줄이기 위해 선구자를 모방하는 프록시를 생성하는 데 사용됩니다. 다른 경우, 의도는 모델에서 직접 지식을 추출하거나 단순히 그들의 행동의 해석을 용이하게하기 위해 시각화하는 데 중점을 둡니다. 섹션 2에 도입 된 분류법에 따라 모델 공유 기술은 모델 단순화, 기능 관련성 추정 및 시각화 기술에 의존 할 수 있습니다.

• 단순화에 의한 설명. 그것들은 아마도 모델 불가지성 사후 방법의 범주에 따라 가장 광범위한 기술 일 것입니다. 단순화 된 모델은 모델의 특정 섹션을 대표하기 때문에이 범주 내에도 설명이 있습니다. 모델 단순화를 위해이 경로를 취하는 거의 모든 기술은 규칙 추출 기술을 기반으로합니다. 이 접근법에 대한 가장 알려진 기여 중에서, 우리는 로컬 해석 가능한 모델-비수성 설명 (라임)의 기술과 모든 변형 [214,216]의 기술을 만난다. 라임은 불투명 모델의 예측 주위에 로컬 선형 모델을 구축하여 설명합니다. 이러한 기여는 단순화와 지역 설명에 따라 설명에 속합니다. 석회 및 관련 향 외에도 규칙 추출에 대한 또 다른 접근법은 G-Rex [212]입니다. 불투명 모델에서 규칙을 추출하기위한 것은 아니지만 G-Rex의 일반적인 제안은 모델 설명 목적을 설명하기 위해 확장되었습니다 [190,211]. 규칙 추출 방법에 따라, [215]의 연구는 복잡한 모델에서 인간이 해석 가능한 모델로 연결하기 위해 CNF (공액 정상 형태) 또는 DNF (Disnunctive Normal Form)의 규칙을 학습하는 새로운 접근법을 제시합니다. 같은 지점에서 나오는 또 다른 기여는 [218]에서 저자가 복잡한 모델에 투명한 모델을 근사화하여 모델 추출 프로세스로 모델 단순화를 공식화한다는 것입니다. 단순화는 [120]의 다른 관점에서 접근하며, 여기서 블랙 박스 모델을 증류하고 감사하는 접근법이 제시됩니다. IT에서는 두 가지 주요 아이디어가 노출됩니다. 모델 증류 방법 및 감사 블랙 박스 위험 스코어링 모델과의 비교; 그리고 감사 데이터에 훈련 된 주요 기능이 누락되었는지 확인하기위한 통계 테스트. 라임 또는 G-Rex와 같은 기술을 포함하여 XAI에 대한 최신 문헌과 일시적으로 일치하는 모델 단순화의 인기가 분명합니다. 이것은 증상 적 으로이 사후 설명 가능성 접근법이 XAI에서 중심적인 역할을 계속할 것으로 예상된다는 것을 보여줍니다. • 기능 관련성 설명 기술은 설명 할 모델에 의한 예측 출력에서 각 기능의 영향, 관련성 또는 중요성을 순위하거나 측정하여 불투명 모델의 기능을 설명하는 것을 목표로합니다. 제안 된 발의안은이 분비물 내에서 발견되며, 각각은 동일한 목표 목표를 가진 다른 알고리즘 접근법에 의지합니다. 이 경로에 대한 유익한 기여는 Shap (Shapley additive 설명)이라고 불리는 [224]의 유익한 기여입니다. 저자는 선구자가 부족한 일련의 바람직한 특성 (국소 정확도, 누락 및 일관성)으로 각 특정 예측에 대한 부가 기능 중요 점수를 계산하는 방법을 제시했습니다. 각 기능의 예측에 대한 기여를 다루는 또 다른 접근법은 연합 게임 이론 [225]과 로컬 그라디언트 [234]였습니다. 마찬가지로, 로컬 그라디언트 [230]를 통해 각 기능에 필요한 변경 사항을 테스트하여 모델 출력의 변화를 생성합니다. [228]에서, 저자는 기능을 그룹화하여 모델에서 발견 된 관계와 종속성을 분석하여 데이터에 대한 통찰력을 가져옵니다. [173]의 연구는 시스템의 출력에 대한 입력의 영향 정도의 정량화를 해결하기위한 광범위한 다양한 조치를 제시한다. 그들의 QII (정량적 입력 영향)는 영향을 측정하는 동안 상관 입력을 설명합니다. 대조적으로, [222]에서, 저자는 기존 SA (민감도 분석)를 기반으로 기존 방법의 적용 가능성을 추진하는 글로벌 SA를 구성한다. [227]에서, 실시간 이미지 돌출 방법이 제안되며, 이는 차별화 가능한 이미지 분류기에 적용 할 수 있습니다. [123]의 연구는 소위 자동 구조 식별 방법 (ASTRID)을 제시하여 어떤 속성이 분류기에 의해 악용되어 예측을 생성하는지 검사합니다. 이 방법은이 기능의 하위 집합으로 훈련 된 분류기의 정확도를 원래 기능 세트에 구축 된 분류기와 정확도로 구별 할 수 없도록 기능의 가장 큰 하위 집합을 발견합니다. [221]에서 저자는 영향 함수를 사용하여 그라디언트 및 Hessian-Vector 제품에 액세스 할 수있는 Oracle 버전의 모델 만 요구함으로써 교육 데이터로 모델의 예측을 추적합니다. 모델의 입력을 수정하여 반 사실적인 예제를 만들기위한 휴리스틱도 설명 가능성에 기여하는 것으로 밝혀졌습니다 [236,237]. 단순화에 의한 전 계획을 시도하는 것과 비교할 때, 비슷한 양의 출판물이 특징 관련성 기술을 통해 설명을 다루는 것으로 밝혀졌습니다. 2017 년부터 2018 년부터 일부 기부금은 모델 단순화 기술과 마찬가지로 기능 관련성도 현재 XAI 환경에서 활기찬 주제 연구가되었음을 암시합니다.

• 시각적 설명 기술은 모델 공유 설명을 달성하는 수단입니다. 이 분야의 대표 작품은 [222]에서 찾을 수 있으며, 이는 이전에 언급 된 확장 된 기술 세트 (글로벌 SA)에 구축 된 블랙 박스 ML 모델의 설명에 도움이되는 시각화 기술 포트폴리오를 제시합니다. 또 다른 시각화 기술 세트는 [223]에 제시되어있다. 저자는 세 가지 새로운 SA 방법 (데이터 기반 SA, Monte-Carlo SA, 클러스터 기반 SA)과 하나의 새로운 입력 중요도 측정 (평균 절대 편차)을 제시합니다. 마지막으로, [238] ICE (개별 조건부 기대) 플롯을 감독 된 학습 알고리즘으로 추정 한 모델을 시각화하기위한 도구로 표시합니다. 시각적 설명은 사후 설명 가능성을위한 모델 공유 기술 분야에서 덜 일반적입니다. 이러한 방법의 디자인은 내부 구조를 무시하는 ML 모델에 원활하게 적용 할 수 있어야하므로 불투명 모델의 입력 및 출력에서만 시각화를 생성하는 것은 복잡한 작업입니다. 그렇기 때문에이 카테고리에 떨어지는 거의 모든 시각화 방법이 기능 관련성 기술과 함께 작동하는 이유입니다.이 기능은 결국 최종 사용자에게 표시되는 정보를 제공합니다.

우리의 문헌 분석에서 몇 가지 트렌드가 나타납니다. 우선, 규칙 추출 기법은 사후 설명 가능성의 우산이없는 모델 공유 기여에서 우세합니다. 섹션 3.4에서 예상되는 설명 랩퍼와 모델 자체에 들어갈 수 없어서 부과 된 복잡성으로 규칙 기반 학습의 광범위한 사용을 염두에두면 직관적으로 예상 될 수 있습니다. 마찬가지로, 또 다른 대규모 기부금 그룹은 기능 관련성을 다룹니다. 최근에 이러한 기술은 DL 모델을 다룰 때 커뮤니티에 의해 많은 관심을 끌고 있으며,이 클래스의 모델의 특정 측면을 활용하는 하이브리드 접근법과 함께 설명되는 모델에 대한 기능 관련 방법의 독립성을 손상시킵니다. 마지막으로, 시각화 기술은 기능 관련성 기술의 출력을 시각화하여 모델의 해석 작업을 완화하는 흥미로운 방법을 제안합니다. 대조적으로, 훈련 된 모델 ( : 구조, 운영 등)의 다른 측면에 대한 시각화 기술은 설명 할 특정 모델과 밀접하게 연결되어 있습니다.

 

4.2. Post-hoc explainability in shallow ML models

얕은 ML은 다양한 감독 학습 모델을 다룹니다. 이 모델 내에는 엄격하게 해석 가능한 (투명한) 접근법이 있습니다 ( : 3 장에서 이미 논의 된 KNN 및 의사 결정 트리). 그러나 다른 얕은 ML 모델은 추가 설명이 필요한보다 정교한 학습 알고리즘에 의존합니다. 예측 작업에서 눈에 띄고 주목할만한 성능을 고려할 때,이 섹션은 결정을 설명하기 위해 사후 설명 가능성 기술을 채택 해야하는 두 가지 인기있는 얕은 ML 모델 (트리 앙상블 및 지원 벡터 머신, SVM)에 중점을 둡니다.

 

4.2.1. Tree ensembles, random forests and multiple classifier systems

트리 앙상블은 요즘 사용하는 가장 정확한 ML 모델 중 하나 일 것입니다. 그들의 출현은 단일 의사 결정 트리의 일반화 능력을 입증하기위한 효율적인 수단으로 왔으며, 이는 일반적으로 과적으로 과적되기 쉬운 일이 발생합니다. 이 문제를 우회하기 위해 트리 앙상블은 다른 나무를 결합하여 집계 된 예측/회귀를 얻습니다. 오버 피팅에 효과적이지만 모델의 조합은 전체 앙상블의 해석을 각 복합 트리 학습자보다 더 복잡하게하여 사용자가 사후 설명 가능성 기술로부터 끌어 들여야합니다. 트리 앙상블의 경우, 문헌에서 발견 된 기술은 단순화 및 특징 관련 기술에 의한 설명입니다. 다음으로 이러한 기술의 최근 발전을 조사합니다. 우선, 트리 앙상블을 단순화하기 위해 많은 기여가 제시되었으며 정확도의 일부를 유지하면 추가 복잡성을 설명했습니다. [119]의 저자는 앙상블 모델로 표시된 데이터 (실제 데이터 배포에 이상적으로)의 임의 샘플 세트에서 덜 복잡한 모델을 훈련시키는 아이디어를 제시합니다. 단순화를위한 또 다른 접근법은 [118]에서 저자가 단순화 된 트리 앙상블 학습자 (stel)를 만듭니다. 마찬가지로, [122]는 두 가지 모델 (단순하고 복잡한)의 사용을 전자의 해석 담당자이며, 기대 대비 및 쿨백-수리기 발산에 의한 예측의 후자를 제시한다. 모델 공유 기술에서 보았던 것과는 반대로, 모델 단순화를 통해 트리 앙상블의 설명 가능성을 탑재 할 수있는 많은 기술이 아닙니다. 이로부터도 제공되는 기술이 충분하거나 모델 공유 기술이 이미 단순화의 범위를 다루는 것입니다. 단순화 절차에 따라 특징 관련 기술도 트리 앙상블 분야에서도 사용됩니다. Breiman [286]은 임의의 숲에서 가변적 중요성을 처음으로 분석 한 최초의 사람이었습니다. 그의 방법은 특정 변수가 비래 외 샘플에 무작위로 순열 될 때 산림의 MDA (평균 감소 정확도) 또는 MIE (평균 주름 오차)를 측정하는 것을 기반으로합니다. 이 기여에 이어 [241]에 따라, 실제 환경에서, 가변적 중요성의 사용이 어떻게 무작위 산림에 의해 모델링 된 복잡한 시스템의 거짓말 관계를 반영하는지 보여준다. 마지막으로, 사후 설명 가능성 사이의 십자형 기술 [240]은 예제를 한 클래스에서 다른 클래스로 변환 할 것이라는 권장 사항을 제기하는 프레임 워크를 제공합니다. 이 아이디어는 더 설명적인 방식으로 변수의 중요성을 분리하려고 시도합니다. 이 기사에서 저자는 이러한 방법을 사용하여 악의적 인 온라인 광고를 개선하여 지불 요금의 순위를 높이는 방법을 보여줍니다. 모델 비전문 기술에 표시된 추세와 유사하게 트리 앙상블의 경우 단순화 및 기능 관련 기술이 가장 많이 사용되는 체계 인 것 같습니다. 그러나 이전에 관찰 된 것과는 반대로, 대부분의 논문은 2017 년부터 거슬러 올라가고 주로 포장 앙상블에 중점을 둡니다. 다른 앙상블 전략으로 초점을 이동할 때, 부스팅 및 스태킹 분류기의 설명에 대한 희소 활동이 최근에 주목되었습니다. 후자 중에서, 앙상블의 복합 학습자가 주어진 데이터에 대한 특정 예측을 생성하는 이유와 앙상블의 출력에 대한 기여를 생성하는 이유 사이의 연결을 강조하는 것이 좋습니다. 보조 기능 (SWAF)을 사용한 소위 스태킹 (SWAF) 접근법은 일반화를 향상시키기 위해 앙상블을 쌓아서 설명을 활용하고 통합 하여이 방향으로 [242] 포인트에서 제안 된 접근 방식을 사용했습니다. 이 전략은 복합 학습자의 출력뿐만 아니라 해당 출력의 기원과 전체 앙상블에 대한 합의에 의존 할 수 있습니다. 앙상블 기술의 설명에 대한 다른 흥미로운 연구에는 DeepShap [226]과 같은 모델 공유 체계, 딥 러닝 모델 외에도 스태킹 앙상블 및 다중 분류기 시스템과 함께 실천하는 모델에 대한 체계가 포함됩니다. 다수의 분류기의 설명 맵의 조합은 그들이 속한 앙상블에 대한 개선 된 설명을 생성한다 [243]; 그리고 전통적인 그라디언트 부스트 앙상블을 다루는 최근의 통찰력 [287,288].

 

4.2.2. Support vector machines

문헌에서 역사적 존재를 가진 또 다른 얕은 ML 모델은 SVM입니다. SVM 모델은 트리 앙상블보다 더 복잡하며 많은 오포어 구조가 있습니다. 사후 설명 가능성 기술의 많은 구현이 이러한 모델에서 내부적으로 수학적으로 정리 된 것을, 다른 저자가 당면한 문제에 대한 설명을 고려한 것과 관련이있는 것과 관련이 있습니다. 기술적으로, SVM은 고중도 또는 무한 차원 공간에 과도한 비행기 또는 초대형 세트를 구성하며, 이는 분류, 회귀 또는 이상치 탐지와 같은 기타 작업에 사용할 수 있습니다. 직관적으로, 모든 클래스의 가장 가까운 훈련 데이터 포인트까지 가장 큰 거리 (소위 기능 마진)를 갖는 과면에 의해 우수한 분리가 달성됩니다. 일반적으로 마진이 클수록 분류기의 일반화 오류가 낮기 때문입니다. SVM은 우수한 사전 및 일반화 기능으로 인해 가장 많이 사용되는 ML 모델 중 하나입니다. 섹션 2에 명시된 기술로부터 SVMS에 적용되는 사후 설명 가능성은 단순화, 로컬 설명, 시각화 및 설명에 의한 설명을 다룹니다. 단순화에 의한 설명 중에서 4 가지 클래스의 단순화가 이루어집니다. 그들 각각은 알고리즘 내부 구조에 얼마나 깊이 들어가는 지에 따라 상대방과 구별됩니다. 첫째, 일부 저자는 훈련 된 모델의 지원 벡터에서만 규칙 기반 모델을 구축하는 기술을 제안합니다. 이것은 [93]의 접근법으로, 수정 된 순차적 커버링 알고리즘을 사용하여 훈련 된 SVM의지지 벡터에서 직접 규칙을 추출하는 방법을 제안합니다. [57]에서 동일한 저자는 여전히 훈련 된 모델의지지 벡터 만 고려하여 절충 학적 규칙 추출을 제안합니다. [94]의 작업은 고전적인 제안 규칙 대신 퍼지 규칙을 생성합니다. 여기서 저자들은 긴 선구자들이 이해력을 감소시키기 때문에 퍼지 접근 방식은 더 언어 적으로 이해할 수있는 결과를 허용한다고 주장합니다. 두 번째 클래스의 단순화는 [98]에 의해 예시 될 수 있으며, [98]는 규칙을 작성하는 구성 요소에 SVM의 과면을지지 벡터와 함께 추가 할 것을 제안했다. 그의 방법은지지 벡터와 하이퍼 플레인 사이의 교차로에서 과다 낭만의 생성에 의존한다. 모델 단순화에 대한 세 번째 접근 방식에서 다른 저자 그룹은 실제 교육 데이터를 규칙을 구축하기위한 구성 요소로 추가하는 것을 고려했습니다. [126,244,246]에서 저자는 각 클래스에 대한 프로토 타입 벡터를 그룹화하는 클러스터링 방법을 제안했습니다. 지지 벡터와 결합함으로써 입력 공간에서 타원체와 과심을 정의 할 수있었습니다. 마찬가지로 [106]에서, 저자들은 SVC (지지 벡터 클러스터링)를 기반으로 한 알고리즘 인 소위 초 고전적 규칙 추출을 제안하여 각 클래스에 대한 프로토 타입 벡터를 찾은 다음 작은 초과 혁신을 정의했습니다. [105]에서, 저자는 규칙 추출 문제를 다중 제한된 최적화로 공식화하여 정점이없는 규칙을 생성합니다. 각 규칙은 비어 비어있는 하이퍼 큐브를 전달합니다. [245]에서 수행 된 유사한 연구에서 유전자 발현 데이터에 대한 규칙을 추출하면서 저자는 다중 커널 SVM의 구성 요소로서 새로운 기술을 제시했다. 이 멀티 커널 방법은 기능 선택, 예측 모델링 및 규칙 추출로 구성됩니다. 마지막으로, [134]의 연구는 증가하는 SVC를 사용하여 추출 된 프로토 타입에서 Voronoi 섹션의 공간을 정의하는 선형 규칙의 관점에서 SVM 결정을 해석합니다. 규칙 추출을 제외하고, 문헌은 또한 SVM의 해석에 기여하는 다른 기술들을 고려했다. 그 중 세 가지 (시각화 기술)는 콘크리트 응용 프로그램에 사용될 때 SVM 모델을 실행하는 데 명확하게 사용됩니다. 예를 들어, [77]은 커널 매트릭스에서 정보 내용을 추출하기 위해 훈련 된 SVM을 시각화하는 혁신적인 접근법을 제시합니다. 그들은 지원 벡터 회귀 모델에 대한 연구를 중심으로합니다. 알고리즘의 기능이 실제로 관련 출력 데이터와 관련된 입력 변수를 시각화 할 수있는 능력을 보여줍니다. [68]에서, 시각적 방법은 SVM의 출력을 열 맵과 결합하여 약물 발견의 후기 단계에서 화합물의 변형을 안내합니다. 그들은 훈련 된 선형 SVM의 무게를 기반으로 원자에 색상을 할당하여 프로세스를 디버깅하는 훨씬 포괄적 인 방법을 가능하게합니다. [116]에서, 저자들은 SVMS 해석에 대한 제시된 많은 연구가 중량 벡터만을 설명하고 여백을 제쳐두고 있다고 주장한다. 그들의 연구에서 그들은이 마진이 어떻게 중요한지 보여주고, SVM 마진을 명시 적으로 설명하는 통계를 만듭니다. 저자는이 통계가 어떻게 신경 영상에 표시된 다변량 패턴을 설명하기에 충분히 특이적인지를 보여줍니다.

주목할만한 것은 SVMS와 베이지안 시스템의 교차점이기도하며, 후자는 SVM 모델의 결정을 설명하기위한 사후 기술로 채택되었습니다. 이것은 [248] [247]의 경우이며, 이는 가우스 프로세스 우선권과의 추론 문제에 대한 SVM MAP (최대 후방) 솔루션으로 해석되는 연구이다. 이 프레임 워크는 하이퍼 파라미터를 이해하기 쉽게 만들고 SVM의 전형적인 이진 분류 대신 클래스 확률을 예측할 수있는 기능을 제공합니다. 기하학적 및 이론적 이해가 누락되어 해석하기가 더 어려운 비 CPD (조건부 긍정적 인 명확성) 커널을 다룰 때 SVM 모델의 해석 가능성이 더욱 관여됩니다. [102]의 작업은 무기한 커널 SVMS의 기하학적 해석 으로이 문제를 중심으로이 문제가 과도한 평면 마진 최적화로 분류되지 않음을 보여줍니다. 대신, 그들은 유사-유클리드 공간에서 볼록한 선체 사이의 거리를 최소화합니다. 다른 모델에 적용되는 사후 기술과 SVM에 대한 기술 사이에는 차이가 인식 될 수 있습니다. 이전 모델에서, 광범위한 의미에서 모델 단순화는 사후 설명성에 대한 두드러진 방법이었습니다. SVMS에서, 지역 설명은 제안들 사이에서 약간의 가중치를 얻기 시작했습니다. 그러나 단순화 기반 방법은 평균적으로 지역 설명보다 훨씬 오래되었습니다. 마지막으로, SVM 설명을 치료하는 검토 된 방법 중 어느 것도 2017 년 이후에 날짜가 없으며, 이는 거의 모든 분야에서 DL 모델의 진보적 인 확산 때문일 수 있습니다. 또 다른 모호한 이유는 이러한 모델이 이미 이해 되었기 때문에 이미 수행 된 작업을 개선하기가 어렵 기 때문입니다.

댓글