6. Toward responsible AI: Principles of artificial intelligence, fairness, privacy and data fusion
수년에 걸쳐 민간 및 공공의 많은 조직이 AI를 개발하고 사용하는 방법을 나타내는 지침을 발표했습니다. 이 지침은 일반적으로 AI 원칙이라고하며 개인과 사회 전체에 대한 잠재적 AI 위협과 관련된 문제를 해결합니다. 이 섹션은 Xai (일반적으로 자체 원칙 안에 나타나는 Xai)를 모두 그들 모두와 연결하기 위해 가장 중요하고 널리 알려진 원칙을 제시합니다. AI 모델의 책임있는 구현 및 사용을 실제로 찾으면 XAI가 자체적으로 충분하지 않다고 주장합니다. 프라이버시 및 공정성과 같은 인공 지능의 다른 중요한 원칙은 실제로 신중하게 고려되어야합니다. 다음 섹션에서 우리는 XAI의 의미와 가정 된 원칙의 충족에 대한 XAI의 의미와 데이터 융합의 의미와 함께 자세히 설명합니다.
6.1. Principles of artificial intelligence
2016 년 이후 발표 된 일부 주요 AI 원칙에 대한 최근 검토는 [385]에 나타납니다. 이 작업에서 저자는 다음 매개 변수에 따라 다른 조직이 분류되는 시각적 프레임 워크를 보여줍니다. • 자연, 민간 부문, 정부, 정부 기관, 시민 사회 또는 다중 스테이크 홀더 일 수 있습니다. • 원칙의 내용 : 프라이버시, 설명 또는 공정성과 같은 8 가지 가능한 원칙. 또한 문서가 고려 된 각 원칙에 대해 부여하는 범위를 고려합니다. • 대상 청중 : 원칙을 목표로하는 사람. 그들은 일반적으로 개발 한 조직을위한 것이지만 다른 청중을 대상으로 할 수도 있습니다 (그림 2 참조). • 국제 인권에 뿌리를두고 있는지 여부와 그들이 명시 적으로 이야기하는지 여부. 예를 들어, [386] 은이 개요의 목적을위한 AI 원칙 문서의 예시 예입니다. 왜냐하면 가장 일반적인 원칙을 설명하고 설명 가능성을 명시 적으로 다루기 때문입니다. 여기서 저자는 주로 회사 내에서 AI 개발을 안내하기위한 5 가지 원칙을 제안하는 한편, 다른 조직과 비즈니스에서도 사용할 수 있음을 나타냅니다. 이러한 원칙의 저자는 AI가 직접 포용을 강화하고 모든 사람에게 동등한 기회를 제공하며 공동선에 기여하는 방식으로 AI를 개발하는 것을 목표로합니다. 이를 위해 다음과 같은 측면을 고려해야합니다.
• AI 시스템을 사용한 후의 생산량은 인종, 종교, 성별, 성적 취향, 장애, 민족, 원산지 또는 기타 개인 상태와 관련하여 개인이나 집단에 대한 어떤 종류의 차별도 이끌어서는 안됩니다. 따라서 AI 시스템의 결과를 최적화하면서 고려해야 할 기본 기준은 오류 최적화 측면에서 출력뿐만 아니라 시스템이 해당 그룹을 다루는 방식입니다. 이것은 공정한 AI의 원리를 정의합니다.
• 사람들은 항상 사람과 의사 소통 할 때와 AI 시스템과 의사 소통하는시기를 항상 알아야합니다. 사람들은 또한 AI 시스템에서 자신의 개인 정보를 사용하고 있는지와 어떤 목적으로 알고 있어야합니다. AI 시스템이 내린 결정에 대한 특정 수준의 이해를 보장하는 것이 중요합니다. 이것은 Xai 기술의 사용을 통해 달성 될 수 있습니다. 생성 된 설명은 [45]에 표시된 바와 같이 투명도 수준을 조정하기 위해 해당 설명 (2.2 절에 주어진 정의에 따라 소위 잠재 고객)을받는 사용자의 프로필을 고려하는 것이 중요합니다. 이것은 투명하고 설명 가능한 AI의 원리를 정의합니다.
• AI 제품과 서비스는 항상 미국의 지속 가능한 개발 목표와 일치해야하며 [387] 긍정적이고 실질적인 방식으로 기여해야합니다. 따라서 AI는 항상 인류와 공동의 이익에 대한 혜택을 창출해야합니다. 이것은 인간 중심 AI의 원리를 정의합니다 (사회적 이익을위한 AI라고도 함).
• 특히 데이터로 공급 될 때 AI 시스템은 모든 수명주기 동안 항상 개인 정보 및 보안 표준을 고려해야합니다. 이 원칙은 AI 시스템이 다른 많은 소프트웨어 제품과 공유되므로 AI 시스템을 배타하지 않습니다. 따라서 회사 내에 이미 존재하는 프로세스에서 상속받을 수 있습니다. 이것은 책임있는 연구 및 혁신 패러다임 (RRI, [389])에 따라 스마트 정보 시스템이 직면 한 핵심 윤리 및 사회적 과제 중 하나로 식별 된 설계 별 개인 정보 보호 및 보안 원칙을 정의합니다. RRI는 실험실의 관점에서 지속 가능성, 공공 참여, 윤리, 과학 교육, 성 평등, 공개 접근성 및 거버넌스와 같은 세계 사회적 도전에 이르기까지 과학 연구를위한 더 넓은 맥락을 고려하는 방법 론적 지침 및 권장 사항 패키지를 말합니다. . 흥미롭게도 RRI는 또한 원칙을 수용하는 프로젝트에서 개방성과 투명성을 보장해야하며, 이는 이전에 언급 한 투명하고 설명 가능한 AI의 원칙과 직접 연결됩니다.
• 저자는 이러한 모든 원칙이 항상 제 3 자 (제공자, 컨설턴트, 파트너 ...)로 확장되어야한다고 강조합니다.
이 5 가지 AI 원칙의 범위를 넘어서서 유럽위원회 (EC)는 최근 AI 시스템 (즉, 제품 관리자, 개발자 및 개발자 및 개발자 및 개발자 및 다른 프로파일로 완료 할 수있는 평가 점검표를 통해 신뢰할 수있는 AI [390]에 대한 윤리 지침을 발표했습니다. 다른 역할). 평가는 일련의 원칙에 기초합니다. 1) 인간의 대행사 및 감독; 2) 기술적 견고성 및 안전; 3) 개인 정보 및 데이터 거버넌스; 4) 투명성, 다양성, 비차별 및 공정성; 5) 사회적, 환경 복지; 6) 책임 성. 이러한 원칙은이 섹션에 자세히 설명 된 원칙과 일치하지만 EC 원칙의 범위는 AI 개발과 관련된 모든 유형의 조직을 포함하여 더 일반적입니다. 이러한 AI 원칙의 대부분은 AI 시스템에서 고려하고 포함해야 할 핵심 측면으로 XAI에 직접 접근한다는 점을 언급 할 가치가 있습니다. 실제로, [385] 이전에 도입 된 이러한 원칙에 대한 개요는 분석에서 다루는 32 개의 AI 원칙 가이드 중 28 개가 XAI를 중요한 구성 요소로 명시 적으로 포함 함을 나타냅니다. 따라서이 기사의 작업과 범위는 전 세계 수준에서 AI에 관한 가장 중요한 측면 중 하나를 직접 처리합니다.
6.2. Fairness and accountability
이전 섹션에서 언급했듯이, 지난 10 년 동안 발표 된 다양한 AI 원칙 지침에 포함 된 XAI를 넘어서 많은 중요한 펙트가 있습니다. 그러나 이러한 측면은 Xai에서 완전히 분리되지 않습니다. 사실, 그들은 얽혀 있습니다. 이 섹션에서는 AI 원칙 안내서 내에서 큰 관련성이있는 두 가지 주요 구성 요소, 공정성 및 책임이 있습니다. 또한 Xai와 어떻게 연결되어 있는지 강조합니다.
6.2.1. Fairness and discrimination
XAI 기술이 차별 인식 데이터 마이닝 방법 내에서 자신의 위치를 찾는 보호 된 기능과 보호되지 않은 기능 사이의 암시 적 상관 관계를 식별하는 데 있습니다. 모델 디자이너는 입력 기능과 관련하여 모델의 출력이 어떻게 작동하는지 분석함으로써 차별을 유발할 수있는 입력 변수간에 숨겨진 상관 관계를 발표 할 수 있습니다. SHAP [224]와 같은 XAI 기술은 보호 및 보호되지 않은 변수를 먹을 때 ML 모델의 결정을 설명하는 반 사실적 결과를 생성하는 데 사용될 수 있습니다. [386]는 이전 섹션에서 소개 된 공정한 AI 원칙을 상기하면서 공정성은 보호 된 그룹에 영향을 미치는 민감한 데이터 (성별, 인종과 같은 변수를 통해)와 관련하여 데이터 세트 내에서 편향 탐지 제안을 포함하는 분야임을 상기시킵니다. 실제로, 블랙 박스 모델에 대한 윤리적 관심은 개인의 인종, 연령 또는 성별과 같은 민감한 요인을 고려함으로써 의도하지 않게 불공정 한 결정을 내리는 경향에서 비롯됩니다 [391]. 불행히도, 이러한 불공정 한 결정은 민감한 속성을 명시 적으로 고려하거나 민감한 데이터와 관련이있는 요소를 사용하여 암시 적으로 차별적 인 문제를 일으킬 수 있습니다. 실제로, 속성은 신용 등급의 우편 번호에서 발생하는 것처럼 보호 된 요인을 암시 적으로 인코딩 할 수있다 [392]. 공정성 측면을 중심으로 앞서 언급 한 제안은 비 인식 변수와 민감한 변수 간의 상관 관계를 발견하고, 특정 하위 그룹의 사람들에게 불이익을주는 알고리즘 (차별)에 불균형 한 결과를 감지하고 모델의 결정에 대한 편견의 영향을 완화 할 수 있습니다. 이러한 접근 방식은 다음을 처리 할 수 있습니다.
• 개인 공정성 : 여기서, 공정성은 각 주제와 나머지 인구의 차이점을 모델링하여 분석됩니다. • 그룹 공정성 : 모든 개인의 관점에서 공정성을 다룹니다.
• 반 사실적 공정성 : 예를 들어 인과 적 그래프를 사용하여 바이어스의 원인을 해석하려고합니다. [392]에 표시된 바와 같이 바이어스 소스는 다음과 같이 추적 될 수 있습니다.
• 비뚤어진 데이터 : 데이터 수집 프로세스 내 바이어스.
• 오염 된 데이터 : 데이터 모델링 정의의 오류, 잘못된 기능 라벨링 및 기타 가능한 원인.
• 제한된 기능 : 너무 적은 기능을 사용하면 잘못된 기능 관계를 추론하여 편견으로 이어질 수 있습니다.
• 샘플 크기 불균형 : 민감한 기능을 사용할 때 다른 하위 그룹 사이의 불균형이 편견을 유발할 수 있습니다.
• 프록시 기능 : 민감한 기능이 데이터 세트에 존재하지 않는 경우에도 편향을 유도 할 수있는 민감한 기능과 상관 관계가있을 수 있습니다.
다음 질문은 AI가 편향되지 않을 때 정의하는 데 어떤 기준을 사용 할 수 있는지입니다. 감독 된 ML의 경우, [393]은 데이터 세트 내에 민감한 기능이있을 때 그룹 공정성을 평가하기 위해 세 가지 기준을 사용하는 프레임 워크를 제공합니다.
• 독립성 :이 기준은 모델 예측이 민감한 기능과 무관 할 때 충족됩니다. 따라서, 모델에 의해 주어진 양성 샘플 (즉, 관심 클래스에 속하는 것)의 비율은 민감한 기능 내의 모든 하위 그룹에 대해 동일하다.
• 분리 : 모델 예측이 대상 변수가 주어진 민감한 기능과 무관 할 때 충족됩니다. 예를 들어, 분류 모델에서, 진정한 양의 (TP) 속도와 오 탐지 (FP) 속도는 민감한 기능 내의 모든 하위 그룹에서 동일합니다. 이 기준은 평등 확률이라고도합니다.
• 충분성 : 대상 변수가 모델 출력이 주어지면 민감한 기능과 무관 할 때 달성됩니다. 따라서, 긍정적 예측 값은 민감한 기능 내의 모든 하위 그룹에 대해 동일합니다. 이 기준은 예측 속도 패리티라고도합니다.
모든 기준이 동시에 충족 될 수있는 것은 아니지만 ML 모델 내에서 편향을 최소화하기 위해 함께 최적화 할 수 있습니다. 이러한 기준을 달성하기 위해 사용할 수있는 두 가지 가능한 조치가 있습니다. 한편으로, 평가에는 모델 내에 존재하는 바이어스 양을 측정하는 것이 포함됩니다 (위에서 언급 한 기준 중 하나와 관련하여). 고려 된 기준에 따라 사용할 수있는 여러 가지 메트릭이 있습니다. 독립 기준과 관련하여 가능한 메트릭은 통계적 패리티 차이 또는 이질적인 영향입니다. 분리 기준의 경우 가능한 메트릭은 동등한 기회 차이와 평균 확률 차이입니다 [393]. 또 다른 가능한 메트릭은 Theil Index [394]이며, 이는 개인 및 그룹 공정성 측면에서 불평등을 측정합니다. 반면, 완화는 하나 또는 여러 민감한 기능의 관점에서 편향의 효과를 제거하기 위해 모델의 일부 측면을 고정하는 과정을 말합니다. 다음 범주로 분류 된 문헌 내에 몇 가지 기술이 존재합니다.
• 사전 프로세싱 : 이러한 기술 그룹은 ML 모델이 훈련되기 전에 적용되어 학습 프로세스의 첫 단계에서 편향을 제거합니다. 예를 들어, 민감한 속성에서 차별을 제거하기 위해 특징의 가중치를 수정하는 [395]의 예는 [395]입니다. 또 다른 예는 [396]이며, 이는 민감한 기능의 멤버십에 대한 정보를 난독 화하는 좋은 표현을 찾기 위해 입력 데이터를 변환하는 데 달려 있습니다.
• 처리 :이 기술은 ML 모델의 훈련 과정에서 적용됩니다. 일반적으로 ML 모델의 비용 함수와 함께 공정성 최적화 제약 조건이 포함됩니다. 예는 적대적 토론이다. [397]. 이 기술은 GAN을 사용하여 민감한 기능을 예측하는 능력을 최소화하면서 목표 변수를 예측하는 능력을 공동으로 최적화합니다.
• 후 처리 : 이러한 기술은 ML 모델을 훈련 한 후에 적용됩니다. 입력 데이터 또는 ML 모델을 수정하지 않기 때문에 덜 방해가됩니다. 예는 평등 확률이다 [393]. 이 기술을 사용하면 각 민감한 하위 그룹의 TP 속도와 FP 속도의 차이를 줄이기 위해 분류 모델의 임계 값을 조정할 수 있습니다.
이러한 참고 문헌은 XAI와 무관 한 것으로 보이는 AI 원칙을 분명히 다루지 만, 문헌은 그것들이 얽혀 있음을 보여준다. 예를 들어, [385]의 설문 조사는 Xai를 다루는 28 개의 AI 원칙 중 26 개가 공정성에 대해 명시 적으로 이야기한다고 밝혔다. 이 사실은 책임있는 AI를 구현할 때 조직이 일반적으로 두 측면을 함께 고려한다는 것을 설명합니다.
문헌은 또한 XAI 제안이 바이어스 탐지에 사용될 수 있다고 폭발한다. 예를 들어, [398]은 모델에 존재하는 바이어스 (개인 및 그룹 공정성 모두)를 시각적으로 분석하는 프레임 워크를 제안합니다. 따라서 공정성 보고서는 Xai 내에서 사용 된 시각적 요약과 마찬가지로 표시됩니다. 이 설명은 편견의 이해와 측정을 완화시킵니다. 이 시스템은 편견이 있고, 정량적으로 정당화되고, 공정성의 정도를 나타내며, 사용자 또는 그룹이 이용 가능한 데이터로 부당하게 취급되는 이유를 설명해야합니다. 마찬가지로, SHAP [224]와 같은 XAI 기술은 보호 및 보호되지 않은 변수를 공급할 때 ML 모델의 결정을 설명하는 반반 결과를 생성하는 데 사용될 수 있습니다. XAI 기술을 통해 보호 된 기능과 보호되지 않은 기능 사이의 암시 적 상관 관계를 식별함으로써 모델 디자이너는 차별을 일으킬 수있는 입력 변수 간의 숨겨진 상관 관계를 발표 할 수 있습니다.
또 다른 예는 [399]이며, 여기서 저자는 공동으로 편견이 적고 인간 이해하기 쉬운 규칙에 대한 설명으로 포함하는 ML 모델을 개발하기 위해 공정한 디자인 접근법을 제안합니다. 이 제안은 사용 가능한 전체 데이터 세트의 작은 부분 만 사용하는 자체 학습 로컬 생성 모델 (약한 감독)을 기반으로합니다. 먼저 데이터 세트 내에서 재귀 적으로 관련된 프로토 타입을 발견하고 주변 지점의 경험적 분포와 밀도를 추출합니다. 그런 다음 데이터 포인트가 일부 프로토 타입과 유사하기 때문에 데이터 포인트가 특정 범주 내에서 분류된다고 설명하는 IF/그런 다음 형식의 규칙을 생성합니다. 그런 다음이 제안에는 대체 제재 (COMS) 데이터 세트를위한 교정 범죄자 관리 프로파일 링을 사용하여 재범의 사용 사례에 대해 입증 된 것처럼 설명을 생성하고 편견을 줄이는 알고리즘이 포함되어 있습니다 [400]. 최근 [401]에서 같은 목표가 추구되어 사후 사후 XAI 기술이 진정으로 불공평 한 블랙 박스 모델에서 공정한 설명을 위조 할 수 있음을 보여줍니다. 마지막으로, 인공 지능 모델의 견고성, 투명성, 해석 가능성 및 공정성에 대한 반 사실적 설명) [402]는 맞춤형 유전자 알고리즘을 사용하여 ML 모델의 견고성을보고, 설명을 생성하며, 검사하는 데 도움이되는 반대를 생성 할 수 있습니다. 공정성 (개인 수준과 그룹 수준 모두) 동시에. 공정성의 개념과 밀접한 관련이 있었으며, 최근 데이터 다양성의 개념에 많은 관심을 기울였으며, 이는 모든 다른 유형의 객체가 출력에 표시되도록 알고리즘 모델의 기능을 본질적으로 지칭합니다 [403]. 따라서 다양성은 모델의 출력 형태를 취할 때 모델의 경향을 정량화하여 매우 정확한 예측보다는 다양한 결과를 생성 할 수있는 항목 모음의 품질을 나타내는 것으로 생각 될 수 있습니다. 다양성은 AI 모델링 단계에 침투하는 윤리적 제한을 가진 인간 중심 응용 프로그램에서 작용한다 [404]. 마찬가지로, 특정 AI 문제 (예 : 콘텐츠 권장 사항 또는 정보 검색)는 또한 득점이지만 비슷한 결과보다는 다양한 권장 사항을 생성하는 것을 목표로합니다 [405,406]. 이러한 시나리오에서 XAI 기술을 통해 블랙 박스 모델의 내부를 분리하면 출력에서 입력 데이터 다양성을 유지하는 모델의 기능을 식별하는 데 도움이 될 수 있습니다. 모델 내부에 대한 투명성을 발전시키고 모델이 훈련 된 데이터의 다양성과 관련하여 그러한 전략의 효과를 평가하기 위해 다양성 유지 기능을 갖춘 모델을 부여하기위한 학습 전략은 XAI 기술로 보완 될 수 있습니다. 반대로, Xai는 모델의 어떤 부분이 다양성을 보존하는 전반적인 능력을 손상시키는지를 방해하는 데 도움이 될 수 있습니다.
6.2.2. Accountability
책임과 관련하여 EC [390]는 다음과 같은 측면을 정의합니다.
• 감사 : 알고리즘, 데이터 및 설계 프로세스의 평가가 포함되지만 AI 시스템과 관련된 지적 재산을 보존합니다. 내부 및 외부 감사인 모두의 평가를 수행하고 보고서를 이용할 수있게하면 기술의 신뢰성에 기여할 수 있습니다. AI 시스템이 안전 중요 응용 프로그램을 포함한 기본 권리에 영향을 미치는 경우 항상 외부 제 3자가 감사해야합니다.
• 부정적인 영향에 대한 최소화 및보고 : 시스템에 의해 특정 결과를 산출하는 재조정 조치 또는 결정으로 구성됩니다. 또한 이러한 결과의 평가와 그 결과에 대한 응답 방법으로 구성됩니다. 이를 해결하기 위해 AI 시스템의 개발은 또한 잠재적 인 부정적인 영향의 식별, 평가, 문서화 및 최소화를 고려해야합니다. 잠재적 인 부정적인 영향을 최소화하기 위해 AI 시스템의 개발, 배치 및 사용 중에 영향 평가를 수행해야합니다. AI 시스템 (예 : 내부 고발자)에 대한 우려를 제기하는 사람을 위해 보호를 보장하는 것도 중요합니다. 모든 평가는 AI 시스템이 제기 할 위험에 비례해야합니다.
• 상충 관계 : 위의 요구 사항의 구현으로 인해 긴장이 발생할 경우, 트레이드 오프는 고려 될 수 있지만 윤리적으로 수용 가능한 경우에만 고려할 수 있습니다. 이러한 트레이드 오프는 추론, 명시 적으로 인정 및 문서화되어야하며, 윤리적 원칙에 대한 위험 측면에서 평가되어야합니다. 의사 결정자는 적절한 상표가 이루어지는 방식에 대해 책임을 져야하며, 결정의 적절성을 보장하기 위해 상표가 지속적으로 검토되어야합니다. 윤리적으로 수용 가능한 트레이드 오프가 없으면 AI 시스템의 개발, 배포 및 사용이 그 형태로 진행되지 않아야합니다.
• 구제 : 예상치 못한 부작용이 발생할 때 상황에 대한 적절한 구제를 보장하는 메커니즘이 포함되어 있습니다. 예측되지 않은 시나리오에 대한 구제를 보장하는 것은 신뢰를 보장하는 열쇠입니다. 취약한 사람이나 그룹에 특별한주의를 기울여야합니다. EC가 다루는 이러한 측면은 XAI와의 책임과 책임을 강조합니다. 첫째, XAI는 규제 프로파일을 포함하여 다양한 프로파일에 대한 AI 시스템을 설명하는 데 도움이 될 수 있으므로 감사에 기여합니다. 또한 앞에서 언급 한 바와 같이 공정성과 XAI 사이에 연결이 있기 때문에 XAI는 또한 부정적인 영향에 대한 최소화 및보고에 기여할 수 있습니다.
6.3. Privacy and data fusion
오늘날 거의 모든 활동 영역에서 공존하는 끊임없이 성장하는 정보 소스는 학습 과제를 해결하기 위해 동시에 이용하기위한 데이터 융합 접근법을 요구합니다. 이종 정보를 병합함으로써, 데이터 퓨전은 산업 예후 [348], 사이버-물리적 사회 시스템 [407] 또는 사물 인터넷 [408]과 같은 많은 응용 분야에서 ML 모델의 성능을 향상시키는 것으로 입증되었습니다. 이 섹션은 ML 모델의 설명 성을 풍부하게하고 ML 모델을 배운 데이터의 개인 정보를 손상시킬 수있는 데이터 융합 기술의 잠재력을 추측합니다. 이를 위해, 우리는 다른 데이터 융합 패러다임을 간단히 개요하고 나중에 데이터 개인 정보의 관점에서 분석합니다. 나중에, 책임있는 AI의 맥락에서 관련성에도 불구하고, Xai와 데이터 퓨전 사이의 합류는 현재 연구 주류에서 미지의 연구 영역입니다.
6.3.1. Basic levels of data fusion
우리는 문제에 대한 포괄적 인 조사에서 확인 된 다양한 수준의 데이터 융합에서 출발합니다 [409–412]. 이 하위 섹션의 맥락에서, 우리는 데이터 수준에서의 융합, 모델 수준에서의 융합 및 지식 수준에서의 융합을 구별 할 것입니다. 또한, 그러한 데이터가 처리되고 융합되는 위치에 따라 병렬 분류가 확립 될 수 있으며, 데이터 융합을위한 중앙 집중식 및 분산 방법을 산출합니다. 중앙 집중식 접근 방식에서 노드는 로컬로 캡처 된 데이터를 중앙 집중화 된 처리 시스템으로 전달하여이를 병합합니다. 대조적으로, 분산 된 접근법에서, 각 노드는 로컬 캡처 된 정보를 병합하여 결국 로컬 융합 결과를 상대방과 공유합니다. 정보 생성 프로세스를 통한 융합은 융합이 정립되는 수준에 따라 속성과 특성을 갖습니다. 소위 데이터 수준에서 Fusion은 원시 데이터를 처리합니다. 도 13에 개략적으로 도시 된 바와 같이,이 단계의 퓨전 모델은 서로 다른 정보 소스로부터 원시 데이터를 수신하고 더 일관된, 준수, 강력 또는 단순히 대표적인 데이터 흐름을 생성한다. 반면에, 모델 수준에서의 융합은 모델을 집계하는데, 각각은 융합 될 데이터 세트의 하위 집합에서 배웠다. 마지막으로, 지식 수준에서 융합 접근법은 원래 제공된 것들로부터 새롭고 더 나은 또는 더 완전한 지식을 만들기 위해 합병하려는 의도로 규칙, 온톨로지 또는 기타 지식 표현 기술의 형태로 지식을 다룹니다. 구조화 된 지식 정보는 각 데이터 소스와 여러 지식 추출기 (예 : 오픈 시맨틱 데이터베이스에서 작동하는 추론 엔진)를 사용하여 데이터 세트의 모든 항목에 대해 추출됩니다. 그런 다음 모든 생산 된 정보가 융합되어 데이터 세트의 항목에 대한 생산 된 지식의 품질, 정확성 및 관리 가능성을 더욱 보장합니다. 다른 데이터 융합 접근법은도 13에 나타내는 것 이상의 존재이다. 따라서, 데이터 수준의 융합은이를 위해 구체적으로 전념하는 기술에 의해 수행 될 수있다 (그림 13 .B에 묘사 된 바와 같이) 또는 ML 모델의 학습 과정을 따라 수행 된 내용은 다음과 같습니다. 예 : DL 모델). 마찬가지로, 모델 수준의 데이터 융합은 다른 모델의 결정을 결합하여 (트리 앙상블에서 수행)를 결합하여 이루어질 수 있습니다.
6.3.2. Emerging data fusion approaches
다음 하위 섹션에서는 데이터 개인 정보 보호 측면에서의 영향으로 인해 최근에 시작된 다른 데이터 융합 접근법을 조사합니다.
• 빅 데이터 퓨전 (그림 13 .D)에서 로컬 모델은 원래 데이터 소스의 분할에 대해 학습됩니다. 그런 다음 감소 노드 (또는 애플리케이션에 따라 몇 가지 감소 노드)는 각 맵 작업에서 생성 된 출력을 결합합니다. 따라서, 빅 데이터 퓨전은 작업자 노드 풀에 ML 모델을 학습하는 복잡성을 배포하는 수단으로 생각 될 수 있으며, 여기서 정보/모델이 맵과 과제를 정의하는 방법을 설계하는 전략은 마지막으로 생성 된 결과의 품질 [413].
• 대조적으로, 연합 학습 [414–416]에서 ML 모델의 계산은 원격 클라이언트 장치에 의해 로컬로 캡처 된 데이터에서 이루어집니다 (그림 13 .E). 로컬 모델 교육시, 클라이언트는 학습 된 지식에 대한 암호화 된 정보를 중앙 서버로 전송하며, 이는 계층 별 그라디언트 형태 (신경 ML 모델의 경우) 또는 기타 모델 의존적 컨텐츠와 같은 형태를 취할 수 있습니다. Central Server (중앙 서버)는 모든 클라이언트로부터받은 지식 기여를 통해 클라이언트 풀에서 수집 된 정보를 활용하는 공유 모델을 생성합니다. 클라이언트 데이터가 중앙 서버로 전달되지 않으므로 연합 학습의 개인 정보 보호 특성을 유도합니다. 또한 계산
수집 된 데이터에 더 가깝게 설정되어 처리 대기 시간이 줄어들고 중앙 서버의 계산 부담이 완화됩니다. • 마지막으로, Multiview Learning [417]은 다른 데이터 소스에 포함 된 정보에 따라 객체의 다른 관점을 구성합니다 (그림 13 .F). 이러한 견해는 여러 정보 소스 및/또는 다른 기능 하위 집합에서 생성 될 수있다 [418]. Multiview Learning은 위에서 언급 한 관점에서 배운 ML 모델을 공동 최적화하기위한 전략을 고안하여 특히 데이터 감독이 약한 응용 프로그램에서 일반화 성능을 향상시켜 과적으로 모델링하기 쉽습니다. 이 관절 최적화는 공동 훈련에서 공동 정기화에 이르기까지 다른 알고리즘 수단에 의지한다 [419].
6.3.3. Opportunities and challenges in privacy and data fusion under the responsible AI paradigm
특히 여러 데이터 소스를 처리 할 때 AI 시스템은 시스템의 수명주기 동안 개인 정보 고려 사항을 명시 적으로 포함해야합니다. 개인 데이터를 사용하는 경우 개인 정보 보호에 대한 사람들의 권리를 존중해야하기 때문에 개인 데이터로 작업 할 때 특히 중요합니다. EC는 개인 정보 보호가 데이터 거버넌스를 다루어 사용 된 데이터의 품질과 무결성을 다루어야한다는 것을 강조한다 [390]. 또한 액세스 프로토콜의 정의와 개인 정보를 보장하는 방식으로 데이터를 처리하는 기능도 포함되어야합니다. EC 가이드는 개인 정보 보호 원칙을 세 가지 측면으로 세분화합니다. • 개인 정보 및 데이터 보호 : 전체 수명주기 동안 AI 시스템에서 보장해야합니다. 여기에는 사용자가 제공 한 정보와 시스템과의 상호 작용에서 파생 된 사용자에 대해 생성 된 정보가 모두 포함됩니다. 사용자에 대한 디지털 정보는 자신에 대한 부정적인 방식으로 사용될 수 있으므로 (민감한 기능으로 인한 차별, 불공정 한 처리 ...) 수집 된 모든 데이터를 적절히 사용하는 것이 중요합니다. • 데이터의 품질 및 무결성 : 데이터 세트의 품질은 ML과 같은 데이터로 인해 AI 시스템을 사용하여 우수한 성능에 도달하는 데 필수적입니다. 그러나 때로는 수집 된 데이터에는 사회적으로 구성된 편견, 부정확성, 오류 및 실수가 포함됩니다. 수집 된 데이터로 모델을 훈련시키기 전에 해결해야합니다. 또한 데이터 세트의 무결성을 보장해야합니다. • 데이터 액세스 : 개인 데이터가있는 경우 항상 데이터 거버넌스를위한 데이터 프로토콜이 있어야합니다. 이 프로토콜은 누가 데이터에 액세스 할 수 있는지 및 어떤 상황에서 어떤 상황을 나타냅니다. EC의 위에서 언급 한 사례는 데이터 퓨전이 사용 된 기술에 관계없이 개인 정보와 공정성과 직접적으로 얽혀있는 방법을 보여줍니다. 규제 기관의 이러한 명시 적 관심에도 불구하고 데이터 융합이 수행되지 않는 시나리오에서 DL 방법에 의해 개인 정보 손실이 손상되었습니다. 예를 들어, 일부 이미지는 이미지 난독 화가있을 때에도 사용자의 개인 정보를 위협하기에 충분하며 [420] DNN의 모델 매개 변수는 모델에서 입력 쿼리를 간단히 수행함으로써 노출 될 수 있습니다 [356,357]. 프라이버시 상실을 설명하는 접근법은 개인 정보 보호 손실과 의도적 손실 주관적 점수를 사용하는 것입니다. 전자는 이미지에서 얼굴의 역할에 따라 프라이버시 위반의 심각성에 대한 주관적인 척도를 제공하는 반면, 후자는 방관자들이 그림에 나타나게하는 의도를 포착합니다. 예를 들어, 이러한 종류의 설명은 예를 들어 사진 작가와 방관자가 프라이버시를 보존 할 수 있도록 일치하는 암호 그래픽 프로토콜을 안전하게 동기를 부여했습니다 [356,421,422]. 우리는 XAI 방법이 Target에서 ML 모델을 훈련시키는 데 사용되는 데이터의 개인 정보 보호와 관련하여 위협이되지 않도록하기 위해이 방향에 투자 한 더 많은 노력을 옹호합니다. 데이터 퓨전이 그림에 들어가면이 설문 조사에서 다루는 설명의 맥락에 따라 다른 의미가 발생합니다. 우선, 데이터 수준에서의 융합을위한 고전적인 기술은 데이터를 다루고 ML 모델과 관련이 없으므로 설명 가능성과는 거의 관련이 없습니다. 그러나 DL 모델의 출현으로 정보 융합과 예측 모델링의 구별이 흐려졌습니다. DL 아키텍처의 첫 번째 계층은 당면한 작업과 관련된 원시 데이터에서 고급 기능을 학습하는 것을 담당합니다. 이 학습 과정은 데이터 수준 융합 문제를 해결하는 것을 목표로하는 것으로 생각 될 수 있지만, 퓨전 프로세스를 해결할 작업과 밀접하게 결합하는 지시 된 학습 방식으로. 이러한 맥락에서, XAI 분야의 많은 기술은 기능 간의 상관 관계 분석을 다루기 위해 노력해 왔습니다. 이것은 데이터 소스가 실제로 DL 모델을 통해 어떻게 융합되는지 설명하는 방법을 포장하여, 이는 손의 예측 작업이 공간 및/또는 시간 영역에 대한 데이터 소스 간의 상관 관계를 유도하는 방법에 대한 흥미로운 통찰력을 얻을 수 있습니다. 궁극적으로, 퓨전에 대한 정보는 사용자의 이해가 향상된 결과로 모델의 유용성을 향상시킬 수있을뿐만 아니라 모델에 통합 될 수있는 다른 잠재적 관심의 다른 데이터 소스를 식별하거나 심지어 기여하는 데 도움이 될 수 있습니다. 다른 상황에서보다 효율적인 데이터 융합.
불행하게도, 데이터 수준에서 이전에 언급 된이 융합 개념은 알려진 형태와 소스 원점의 특정 제약하에 데이터를 고려합니다. [423]에 제시된 바와 같이, 빅 데이터 시대는 이들 구내를 당연한 것으로 간주 할 수없는 환경을 제시하고, 빅 데이터 융합을 탑재하는 방법 (그림 13 .D에 설명 된 바와 같이)은 생각되어야한다. 반대로, 모델 융합 컨텍스트에 대한 우려는 Xai 기술이 개인 데이터의 기밀성을 손상시킬만큼 설명 할 수있는 가능성에서 나타납니다. 민감한 정보 (예 : 소유권)가 보호되지 않은 기능 및 보호되지 않은 특징 중에서 설명 된 융합으로부터 추론 될 수 있다면 결국 발생할 수 있습니다. 우리의 전망을 모델 수준에서 데이터 융합으로 바꿀 때, 우리는 이미 트리 앙상블에서와 같이 여러 투명 모델의 출력의 융합이 전체 모델을 불투명하게 만들어서 사후 설명 가능성 솔루션에 의지 할 필요가 있다고 주장했습니다. . 그러나 모델 퓨전은 강력한 사후 XAI 기술이 부여 될 때 다른 단점을 수반 할 수 있습니다. 모델의 입력 기능의 관계가 사후 기술을 통해 발견되었으며 이러한 기능 중 하나가 숨겨져 있거나 알려지지 않았다고 상상해 봅시다. 이전 기능이라면 다른 모델의 기능을 추론 할 수 있습니까?
그 모델에서 사용되는 것으로 알려 졌습니까? 이 가능성은 관련 보호 된 입력 변수가 처음에 공유되지 않는 경우 개인 정보 보호 위반으로 문제를 발견 할 수 있습니까? 예제를 명확하게하기 위해, [424]에서 다른 단일 뷰 (그들이 겪고있는 소스를 나타내는) 모델이 융합되는 멀티 뷰 관점이 활용된다. 이러한 모델에는 휴대 전화 데이터, 운송 데이터 등이 포함되어 있습니다. 여기에는 공유되지 않은 정보가 실제로 공유되는 다른 소스를 통해 발견 될 수 있다는 문제를 소개 할 수 있습니다. 위의 예에서, 기능 대신 모델이 페더레이션 학습에서와 같이 다른 A 레이어 또는 아키텍처의 일부와 공유하는 경우 어떻게해야합니까? 이 공유로 인해 모델의 교환 된 부분에서 선구자 모델에 대한 더 나은 성공률로 적대 공격의 설계를 허용하는 정도까지 정보를 추론 할 수 있습니까? 지식 수준 융합에 중점을 둔 경우, 유사한 추론은 다음과 같습니다. XAI는 ML 모델에서 지식을 추출하는 기술을 구성합니다. 모델을 설명하는이 능력은 ML 모델 내에 형성된 복잡한 상호 작용을 통해 새로운 지식을 발견해야 할 필요성에 영향을 줄 수 있습니다. 그렇다면 Xai는 지식 융합 패러다임을 풍부하게하여 당면한 과제와 관련된 새로운 지식 추출기를 발견 할 가능성을 가져올 수 있습니다. 이를 위해 XAI 기술을 통해 모델에서 추출한 지식이 지식 추출기가 작동하는 영역에 대해 이해하고 추정 될 수 있다는 것이 가장 중요합니다. 이 개념은 [425]에 묘사 된 전송 학습의 개념과 쉽게 일치합니다. XAI는 특정 기능 공간과 분포에서 훈련 된 모델에서 지식을 추출하는 조사 된 프로세스에서 고려되지 않지만, 이전 조건이 보유하지 않는 환경에서 활용 될 때, XAI는 모델에 대한 설명이 할 수 있다면 위협을 제기 할 수 있습니다. 지식 융합 패러다임을 통해 반대로 엔지니어링하여 전체 모델의 차이 프라이버시와 같은 크게 타협하십시오.
중앙 집중식 및 분산 데이터 융합의 구별은 개인 정보 및 설명과 관련하여 더 많은 어려움을 겪습니다. 중앙 집중식 접근법은 위에 제시된 것들이 더 이상 우려하지 않습니다. 그러나 분산 퓨전은 새로운 문제가 발생합니다. 분산 융합은 주로 환경 제약 또는 보안 또는 개인 정보 보호 문제로 인해 다양한 이유로 적용될 수 있습니다. 후자의 맥락은 약간의 위험에 빠질 수 있습니다. 다른 목표 (예 : 계산 효율성) 중에서도 모델 수준 데이터 융합은 분산 방식으로 수행되어 실제 데이터가 실제로 공유되지 않고 오히려 로컬 데이터에 대해 교육을받은 ML 모델의 일부를 보장합니다. 이 근거는 Federated Learning의 핵심에 있으며, 모델은 노드간에 로컬로 배운 정보를 교환합니다. 데이터는 로컬 장치를 떠나지 않기 때문에 분산 장치에서 모델 업데이트 전송 만 필요합니다. 이는 네트워크가 제공 한 설정에 대한 교육 프로세스를 밝게하고 데이터 개인 정보를 보장합니다 [416]. 사후 설명 가능성 기술을 사용하면 노드는 수신 된 ML 모델 부분이 훈련 된 로컬 컨텍스트에 대한 민감한 정보를 위장 할 수 있습니다. 실제로, 입력/출력 쿼리 인터페이스가 제공되는 DNN을 기반으로 한 블랙 박스 모델을 사용하여 훈련에 사용되는 모든 단일 하이퍼 매개 변수 값을 정확하게 예측하여 잠재적 개인 정보 관련 결과를 허용하는 것으로 나타났습니다 [357,420,421]. . 이것은 흐릿한 이미지가 프라이버시 보존을 보장하지 않는다는 것을 보여주는 연구와 관련이 있습니다. 데이터 융합, 개인 정보 및 모델 설명 가능성은 지금까지 함께 분석되지 않은 개념입니다. 위의 논의에서 나오는 시대에 지역 사회의 추가 연구를 요구하는 미해결 우려와 경고가 있음이 분명합니다.
6.4. Implementing responsible AI principles in an organization
점점 더 많은 조직이 의도하지 않은 부정적인 결과를 피하는 것에 관심을 갖기 위해 AI 원칙을 게시하고 있지만 실제로 원칙을 조직으로 구현하는 방법에 대한 경험은 훨씬 적습니다. 다른 조직이 선언 한 원칙의 몇 가지 예를 살펴보면 [385], 우리는이를 두 그룹으로 나눌 수 있습니다.
• 설명, 공정성 및 인간 기관과 같은 AI에 특화된 측면에 중점을 둔 AI 특정 원칙.
• 개인 정보 보호, 보안 및 안전을 포함하여 AI와 관련된 모든 측면을 다루는 엔드 투 엔드 원칙. 신뢰할 수있는 AI에 대한 EC 지침은 엔드 투 엔드 원칙의 예 [390]의 예이며, Telefonica (전 세계적으로 운영되는 대형 스페인 ICT 회사)의 예는 AI 특정이다 [386]. 예를 들어 안전 및 보안은 연결된 IT 시스템과 AI 시스템과 관련이 있습니다. XAI 도구와 데이터가 많기 때문에 ML 모델이 막대한 양의 데이터가 필요하고 가장 중요한 사실 때문에 개인 정보 보호에 대한 동일성이 있지만 AI 시스템의 맥락에서 개인 정보가 일반 IT 시스템보다 훨씬 중요하다는 것은 사실 일 것입니다. 퓨전 기술은 보호 된 기록의 개인 정보를 보존하기 위해 새로운 도전을 제기합니다. AI 원칙을 조직으로 구현할 때는 AI 특정 부품을 운영하고 동시에보다 일반적인 원칙을 위해 이미 존재하는 프로세스를 활용하는 것이 중요합니다. 실제로, 많은 조직에는 이미 개인 정보 보호, 보안 및 안전을위한 규범과 절차가 있습니다. AI 원칙을 구현하려면 [386]에 제시된 방법론이 다른 부분으로 분류되는 방법론이 필요합니다. 그러한 방법론의 성분에는 적어도 다음을 포함해야합니다.
• 값과 경계를 설정하는 AI 원칙 (이미 이전에 논의 됨).
• 기술 및 비 기술적 인 잠재적 문제에 대한 인식과 교육.
• 사람들이 AI 시스템의 특정 영향에 대해 생각하도록 강요하는 설문지 (영향 설명). 이 설문지는 바람직하지 않은 영향이 감지되면해야 할 일에 대한 구체적인 지침을 제공해야합니다.
• 일부 질문에 답하는 데 도움이되고 식별 된 문제를 완화하는 데 도움이되는 도구. XAI 도구 및 공정성 도구는이 범주와 모델 카드 [426]와 같은 다른 최근 제안에 속합니다.
• 책임과 책임을 지정하는 거버넌스 모델 (책임 설명). 거버넌스에 대한 두 가지 철학이 있습니다. 1) AI 개발을 검토하고 승인하는위원회에 근거한 2) 직원의 자기 책임에 근거한 2). 민첩성이 디지털 세계에서 성공하기위한 핵심이라는 사실을 감안할 때 둘 다 가능하지만 인식과 직원의 책임에 집중하는 것이 더 현명 해 보이며 구체적이지만 중요한 문제가있을 때만위원회 만 사용하는 것이 더 현명 해 보입니다. 위의 정교함으로부터, 회사에서 책임있는 AI 원칙의 구현은 두 가지 요구 사항 사이의 균형을 유지해야한다는 것이 분명하다. 그리고 2) 회사에서 이미 이용할 수있는 IT 자산, 정책 및 자원으로 그러한 원칙의 구현에 대한 타당성과 준수. XAI가 자리를 잡고 큰 영향을 미칠 것이라고 생각하는 책임있는 AI의 원칙과 가치에 대한 기업의 인식을 높이는 점진적인 과정에 있습니다.
7. Conclusions and outlook
이 개요는 설명 가능한 인공 지능 (XAI)을 중심으로 진행되었으며, 최근에는 실제 응용 분야에서 ML 방법을 채택해야 할 필요성으로 확인되었습니다. 우리의 연구는 모델 설명의 기본 다양한 개념을 먼저 명확하게하고 해석 가능한 ML 방법을 찾는 데 동기를 부여하는 다양한 목적을 보여 줌으로써이 주제에 대해 자세히 설명했습니다. 이러한 개념적 발언은 설명 가능성을 다루는 리 센터 문헌을 체계적으로 검토하기위한 탄탄한 기준으로 사용되었으며, 이는 두 가지 다른 관점에서 접근 한 ML 모델로, 일부 투명성의 일부를 특징으로하는 ML 모델로서, 어느 정도 해석 할 수 있습니다. 그들 자신; 및 2) 사후 XAI 기술은 ML 모델을 더 해석 할 수 있도록 고안했다. 이 문헌 분석은 지역 사회가보고 한 다양한 제안에 대한 글로벌 분류를 생성하여 균일 한 기준으로 분류했습니다. 딥 러닝 모델의 설명을 다루는 기여의 유병률을 감안할 때, 우리는이 모델 패밀리를 다루는 문헌을 심층적으로 검사하여 설명 가능성을 깊이 실현할 수있는 특정 영역과 더 밀접하게 연결되는 대안 분류법을 생성했습니다. 학습 모델. 우리는 공정성, 투명성 및 개인 정보를 포함하여 실제로 AI 모델을 구현할 때 충족 될 일련의 AI 원칙을 부과하는 패러다임 인 책임있는 AI의 개념으로 XAI 영역에서 지금까지 이루어진 것 이상의 토론을 옮겼습니다. 우리는 또한 데이터 융합의 맥락에서 XAI 기술을 채택하는 의미에 대해 논의하여 XAI의 잠재력을 공개하여 퓨전 프로세스와 관련된 보호 된 데이터의 개인 정보를 손상시켰다. 공정성에서 Xai의 시사점도 자세히 논의되었습니다. 책임있는 AI에 대한 위에서 언급 한 원칙을 보장하기위한 핵심 개념으로서의 XAI의 비전은 그림 14에 그래픽으로 요약되어있다. 이 작업 전반에 걸쳐 개최 된 토론에서 전달 된 Xai의 미래에 대한 우리의 성찰은 Xai 기술에 의해 열린 잠재력과 경고에 대한 적절한 이해에 대한 강력한 필요에 동의합니다. 모델 해석 가능성은 데이터 분야, 모델 기밀성, 공정성 및 책임과 관련된 요구 사항과 제약과 공동으로 광고를 처리해야한다는 것이 우리의 비전입니다. 전 세계 조직 및 기관에서 AI 방법의 책임있는 구현 및 사용은 이러한 모든 AI 원칙이 공동으로 연구되는 경우에만 보장 될 것입니다.
'Data Analysis' 카테고리의 다른 글
Urban-GAN(2) (0) | 2023.01.19 |
---|---|
Urban-GAN(1) (0) | 2023.01.18 |
설명가능한 인공지능(XAI) 관련 설명(4) (0) | 2023.01.17 |
설명가능한 인공지능(XAI) 관련 설명(3) (1) | 2023.01.16 |
설명가능한 인공지능(XAI) 관련 설명(2) (0) | 2023.01.16 |
댓글