-
Resonsible AI - Studying Bias in GANs through the Lens of RaceAI/Analysis 2025. 3. 28. 21:40
ECCV 2022
Studying Bias in GANs through the Lens of Race
본 논문은 Responsible AI (RAI)에 관한 논문으로 데이터 편향의 GAN에 미치는 영향에 대한 분석을 한 논문이다.
요즘 신뢰성, 강건성을 가지는 AI 모델에 대한 고민을 하게 되며 관심을 해당 분야에 관심이 생겨 읽어보게 된 논문이다.
DOI: https://doi.org/10.48550/arXiv.2209.02836
Studying Bias in GANs through the Lens of Race
In this work, we study how the performance and evaluation of generative image models are impacted by the racial composition of their training datasets. By examining and controlling the racial distributions in various training datasets, we are able to obser
arxiv.org
1. Responsibility AI
최근 AI Trend
최근 AI 논문을 읽으면 느낀 것은 발전은 "새로운 모델 아키텍쳐" 위주의 경쟁에서, 실제 적용 및 활용 가능성, 모델의 경량화 및 가속화, 인공지능 모델의 안전성, 책임감과 신뢰로 연구의 축의 확대되고 있다는 것이다.
[ICLR 2024]Foundation Model 분야 최신 연구 동향 - LG AI Research BLOG
ICLR 2024, Foundation Model 분야 최신 연구 동향
www.lgresearch.ai
[AI 매거진] 2025 주목할 AI 트렌드 6가지 (feat. 엔코아, 피닉스랩)💫 | ㅅㅋN
2024년은 AI가 정말 뜨거운 키워드였죠! 🔥 일상부터 다양한 산업까지 곳곳에 AI가 스며들면서 많은 변화를 만들어냈는데요. 올해는 뜨거웠던 AI가 불타오를 것이라는 전망이 가득해요. SK네트웍
blog.sknetworks.co.kr
Utility
(진짜 문제를 푸는 AI)Efficiency
(현실에 적용 가능한 AI)Responsibility & Trust
(사람이 신뢰할 수 있는 AI)도메인 특화 (의료, 법률 등) LoRA / QLoRA 설명 가능성 (Explainability) RAG/KAG Edge / On-device AI 공정성 (Fairness) AI Agent 모델 압축 / Quantziation 편향 완화 / Value Alignment Finetuning, Prompt Engineering Knowledge Distillation AI 윤리, 규제 대응 다시 말해, 기존의 "어떻게 만들고 문제를 해결할 것인가?" 에서
"어떻게 잘 활용할 것인가?", "어떻게 효율적으로 적용하고 제공할 것인가?" , "사람이 믿을 수 있는 AI인가?"라는 내용으로 연구가 활발히 진행되고 있다.
결국, AI 기술이 우리 삶 속으로 더 깊이 들어올수록, "이 기술은 과연 사람을 제대로 보고 있는가?", "누구에게 유리하고, 누구를 배제하고 있는가?"라는 질문이 더 중요해지고 있다.
그래서, 지금 AI 분야에서는 Trustworthy AI, Responsibility AI, AI Safety 분야 전문가 채용이 점점 늘고 있는 것 같다.
이번 논문 리뷰에서는 이중 "Responsibility AI", "Trustworthy AI"에 대해서 알아보고자 한다.
Responsibility AI (RAI) 란?
RAI는 아래와 같이 설명할 수 있다.
- AI 시스템을 안전하고 신뢰할 수 있으며 윤리적인 방식으로 개발, 평가 및 배포하는 접근 방식
- 사람이 믿을 수 있는 방식으로 작동하며, 인간 중심 가치를 반영하는 AI 시스템
- 단지 "잘 작동하는 AI"가 아닌, 사람에게 설명할 수 있고, 공정하며, 책임질 수 있는 AI
Trustworth AI의 특성은 아래의 표와 같다:
특성 의미 안전성 (Safety) AI의 작동 결과가 사람이나 환경에 해가 없어야 함 설명 가능성 (Explainability) 결과가 왜 나왔는지 사람이 이해할 수 있어야 함 책임과 투명성 (Accountable & Transparency) 오류 발생 시 책임소재가 명확, 내부 과정의 투명함 견고성 (Robustness) 다양한 상황/환경에서도 일관되고 안정적인 결과 공정성 (Fairness) 특정 집단에게 불리하거나 편향되지 않은 판단 프라이버시 강화 (Privacy-Enhanced) 개인 정보 보호 보장 그렇다면, 지금의 AI 시스템들은 이러한 기준을 충족하고 있을까?
특히 우리가 매일 접하는 생성형 AI는 정말 모든 사람을 공정하게 표현하고 있는가?
본 논문은 이러한 생성형 인공지능에 대한 의문을 분석한 논문이다.
2. Introduction
Computer vision community는 수십 년간 편향의 문제를 다뤄 왔다.
비전 알고리즘이 실제 세상에 점점 실용적으로 사용되기 시작하면서, 이 편향 문제는 사회적으로 심각한 문제로 대두되고 있다.
GANs는 품질과 대중성이 크게 향상되었지만, 이 모델들에서 인종적 편향이 존재한다는 것이 밝혀졌다고 한다.
GAN이 합성 데이터 생성이나 창장 도구로 폭넓게 사용되면서 이러한 인종적 편향이 후속 응용 분야에 그대로 전이될 위험이 있으며, 왜 이런 편향이 발생하는지에 대한 이해의 필요성이 커지고 있다.
이미지를 생성하는 AI 모델에서는 편향된 결과 그럼 무엇 때문일까?
- 모델이 학습한 데이터에 원인이 있는가? (데이터 편향 문제)
- 아니면 알고리즘 자체에 문제가 있는가? (알고리즘 편향)
- 아직 이에 대한 명확한 답은 없다.
본 논문에서, GAN이 생성한 얼굴에서 "특정 인종으로 인지되는 요소"에 따라 어떤 편향이 나타나는지를 분석하여 편향의 근원이 데이터 불균형만으로 설명가능한가?, 혹은 알고리즘 구조도 영향을 미치는 가?를 분석하고 있다.
본 연구에서 생성 이미지 모델에서 편향을 아래와 같은 세 가지 유형으로 정의한다.
- 데이터 분포 편향 (Data distirubtion bias)
- 훈련 데이터에 존재하는 인종 불균형이 생성된 데이터 그대로 복제되는 현상
- 대칭적 알고리즘 편향 (Symmetric algorithmic bias)
- 어떤 인종이 과대 또는 과소 대표되었는지와 무관하게, 훈련 데이터의 불균형이 생성된 데이터에서 더욱 심화되는 현상
- 비대칭적 알고리즘 편향 (Asymmetric algorithmic bias)
- 훈련 데이터의 분포와 관계없이, 일부 인종 클래스에만 불균형한 영향을 미치는 현상
본 논문에서는 아래의 질문을 중심으로 실험을 설계하고 진행하였다.
- 인종적으로 불균형한 훈련 데이터는 생성된 데이터에서도 더 큰 불균형을 만들어내는가?
- 이미지 품질 향상 기법인 "Truncation Trick"은 인종 불균형 문제를 악화시키는가?
- 불균형한 데이터 훈련한 모델은 생성 이미지의 시각적 품질에 인종 간 차이를 만들어 내는가?
Truncation Trick?
본격적으로 논문의 실험 세팅 및 결과를 알아보기 전에 위에서 이야기한 "Truncation Trick"이 무엇인지만 확인하고 가자.
Truncation Trick은 GAN이 비정상적이거나 이상한 이미지를 생성하는 것을 방지하기 위한 기법으로 Latent space에서 너무 극단적인 값들 (outlier)를 중심값(mean)에 가깝게 잘라내는 (truncation) 방식
GAN의 Generator G는 latent vector z를 입력으로 받아 이미지를 생성한다.
그러나 z를 너무 무작위로 샘플링하면 아래와 같은 문제가 발생한다.
- 너무 극단적인 위치의 z일 경우, 품질이 낮거나 이상한 이미지가 생성된다.
- 특히 훈련 데이터에 적게 나타나는 특성들은 잘 학습되지 않아, 생성기가 이를 제대로 표현하지 못한다.
StyleGAN에서는 이러한 문제를 해결하기 위해서 Truncation Trick을 사용한다.
z를 non-linear mapping network f를 통해 중간 잠재 공간 w로 변환한 뒤, w가 전체 w 분포의 평균에 가까운 값이 되도록 강제한다.
이는 학습 중에 사용되지 않으며, 학습이 완료된 네트워크 input을 제어하는 식으로 진행된다.
space W에서 임의로 추출된 w w을 w ^ ̅ 을 통해서 w'로truncation trick을 사용하게 된다.
w ^ ̅ : 평균 값 / ψ=1:w′=w truncation 사용 x
ψ<0: truncation 사용 / ψ=0:w′=w^ ̅ 이므로 모두 같은 평균 사진
값이 높을수록 더욱더 다양하고 퀄리티가 낮은 이미지를 생성하며, 값이 작을수록 더욱더 다양성이 낮고 이미지의 퀄리티는 높아지게 된다.
3. Methodology
3.1 Racial Categorizations
인종이라는 주제는 사회적으로 중대한 영향력을 가지는 주제이기 때문에 GAN 모델의 편향을 "인종"이라는 렌즈를 통해 분석하고자 한다.
이들은 피부 색조나 명암 기반 분류 방식(ITA 지수, Fitzpatrick)이 아닌, perceived racial classficiaton을 기준으로 삼았다. 그 이유는 아래와 같다. (Percevied racial classficiation: 객관적인 생물학적 인종이 아닌, 사람들이 그렇게 보는 대로 분류한 인종)
- 인지된 인종 구분은 인종 편향을 이해하기 위한 보다 직관적이고 의미 있는 관점이 될 수 있다.
- FairFace dataset처럼 인종 label이 부여된 대규모 face dataset을 활용할 수 있다.
이들은 FairFace의 7개 인종 범주를 실험의 간소화를 위해 Black, White, and Non-Black or Non-White라는 3개의 그룹으로 재구성하였다. 이렇게 범주를 단순화한 이유는, 시각적 인식상의 모호성을 줄이기 위함이라고 한다.
3.2 Datasets
FFHQ 기존 GAN 개발에 가장 많이 사용되는 얼굴 데이터셋 FairFace 인종/나이/성별 라벨이 포함된 고품질 일반인 얼굴 데이터셋 FairFace를 기반으로 다양한 인종 비율 실험 구성 (80B-20W, 50B-50W, 20B-80W)
3.3 Amazon mechanical Turk Annotation (AMT)
Amazon Mechanical Turk (AMT) 직원들에게 아래의 세 가지 질문에 대한 task를 부여하고, albeling을 수집
Task 1 인종 분류 (Race Classication) 이 이미지 속 인물의 인종은 무엇인가?
[Black, Whiht, Cannot Determin, Non-Black or Non-white]Task 2 Real / Fake Classfication Is this image real or fake? Task 3 Image Quality Ranking 다음 이미지 중 어느 쪽이 더 가짜 이미지처럼 보이나요? 각 task에서 FairFace와 FFHQ에서 무작위로 추출한 real image 1,000장과 각 데이터셋을 기반으로 생성된 generated image 1,000장씩을 함께 annotation
4. Experiments and Results
4.1 Train Racial Distribution of Training and GAN-Generated Data
[ 주석 일관성 분석 (Annotation Consistency Analysis) ]
Training and generated images의 인종 분포를 측정하기 위해 수집한 annotations를 활용
우선, 이 프로세스의 신뢰성과 정확도를 평가하는 위해 FairFace 검증 세트에서 무작위로 선택한 1,000장의 이미지에 대한 주석을 수집한다.
위 그림의 cnofusion matrix는 FairFace validation set의 기존 label과 AMT 프로토콜을 통해 수집한 annotation 간의 차이를 보인다. 이는 단지 시각 정보만으로 인종을 분류하는데 한계가 있음을 시사한다.
표를 통해 흑인과 백인으로 인식된 이미지 간에는 시각적 혼동이 가장적음을 확인할 수 있다. 그러므로, 두 인종만을 대산으로 분석하는 것은 적합하다고 판단할 수 있다.
관측된 인종 범주를 제한함으로써 label 일관성을 높이고, 두 인종 간 영향 차이를 더 명확하게 분석할 수 있도록 하였다.
[ The Racial Dstribution of FFHQ ]
FFHQ의 인종 분포를 파악하기 위해, 1000장의 이미지 샘플을 무작위로 선택하여 ATM annotation Task 1 방식으로 수집을 진행하였다.
분석결과, 69% 백인, 4% 흑인, 27% 기타로 해당 데이터셋은 전 세계 흑인 비중에 비해 크게 과소 대표되고 있음을 확인할 수 있다.
[ Relationship between Training and GAN-Generated Data Distributions ]
"불균형한 훈련 데이터는 생성된 데이터의 인종 분포에도 영향을 미칠까?"
StyleGAN2-ADA는 training data의 인종 분포를 그대로 보존하는 경향이 있음을 확인할 수 있다.
이는 Data Distribution Bias 가 존재한다는 증거이다.
생성된 데이터 분포는 통계적으로 훈련 데이터 분포와 유사하며, 훈련 분포가 95% 신뢰 구간에 포함되어 있음
[ Impace of Truncation on FFHQ Generated Data Distribution ]
"Truncation 기법은 인종 편향을 악화시키는가?"
Truncation value: 1(사용 안 함), 0.75, 0.5
Truncation을 적용할수록 StyleGAN2-ADA의 생성 데이터에서 인종 불균형이 심화됨을 확인할 수 있다.
Truncation value 0.5를 기준으로 Black 비율은 4%에서 0% 감소하며, White 비율은 증가함을 확인할 수 있다.
Truncation은 백인 얼굴 생성을 증가시키고, 흑인 얼굴을 감소시키는 경향이 있음을 시사하는 실험 결과이다.
[ Automairc Race Classification ]
Truncation level의 영향을 보다 정밀한 분석을 위해, AMT annotation을 대규모로 대체하는 automiac race classifier를 사용하였다. ResNet-18을 사용하여 얼굴 이미지를 3가지 인종(Balck, White Other)으로 분류하였다.
이때 Training Datas는 FairFace, StyleGAN2-ADA로 생성된 Black-only, Whit-only, Other-only으로 사용하였다.
분류 정확도는 약 84%로, AMT annotation 결과와 유사한 수준의 classficiaton 결과를 제공하며, ResNet으로 분류하는 것이 기존 annotation의 대체 수단으로 충분한 역할을 할 수 있음을 확인할 수 있다.
[ Evaluation of Truncation ]Automaic으로 annotation 된 data를 이용한 결과 truncation 수준이 높아질수록 인종 다양성은 감소하고, 결국 해당 데이터셋의 평균얼굴로 수렴하는 경향을 보인다.
truncation 수준(γ = 0 ~ 1, 간격 0.1)에서 다음 경향을 관찰하기 위해 총 11개의 truncation 수준 x 10,000 장의 생성 이미지, 즉 110,000 장의 이미지에 대해 automatic classficiation을 실시하였다.
그 결과, FFHQ처럼 백인 비중이 높은 데이터셋에서 truncation을 적용할수록 백인 이미지 생성 비율이 증가하였으며, 80B-20W와 같이 흑인 비중이 높은 경우, truncation 후 생성된 이미지 대부분이 흑인으로 분류되었다.
즉, Truncation은 training data의 기존 인종 비율을 더 극단적으로 드러내는 역할을 한다.
더 좋은 퀄리티의 이미지를 생성하기 위해, 데이터셋에서 적은 특징(이상치)은 제거하고 특징이 많이 분포되어 있는 곳으로 몰아주는 특성으로 인해 이러한 결과가 발생한다.
실험 결과 이미지, 오른쪽 상단부터 (1, 0.8, 0.6, 0.4, 0.2, 0) 순서대로의 결과 4.2 GAN quality
서로 다른 generator에서 생성된 이미지들의 pairwise 비교를 수행하였다.
한 생성기의 이미지가 다른 생성기의 이미지보다 더 많이 고화질이라고 선택된 횟수를 수치로 세어 비교하였다.
Trained FairFace: 백인 이미지가 더 많이 포함된 데이터로 학습한 생성기에서 생성된 이미지가 더 높은 비율로 "더 품질이 좋다"라고 평가
Trained FFHQ + truncation: truncation 수준이 높을수록 이미지가 더 고품질로 인식
[ Correlation with FID ]
이때, 위와 같은 결과에도 불구하고 FID의 경우 값들 사이에 크게 눈에 띄는 차이가 없다.
즉, FID는 사람이 인식하는 품질 차이를 반영하지 못함을 시사한다.
Data (FairFace) FID 20B-80W 5.6 50B-50W 5.63 80B-20W 5.68 이는 통계적 특징만을 비교하기 때문에 발생하는 문제이다.
FID는 좋은 지표이지만, 공정하고 신뢴 가능하게 이미지를 생성하는가?를 보여주지는 못한다는 문제점이 있음을 나타낸다.
4.3 Perceived Visual Image Quality and Race
[ 훈련 데이터에 인종별 편향이 존재할 때, 생성된 이미지의 "시각적 품질 평가"에도 인종 간 차이가 발생하는가? ]
[ Pairwise Image 품질 비교 ]
쌍 비교에 기반한 인지 품질 평가에서 아래와 같은 결과를 얻음:
- 특정 인종의 이미지 비율이 훈련 데이터에서 증가함에 따라, 해당 인종의 생성 이미지가 더 높은 품질로 인식됨
- 훈련 데이터의 구성과 관계없이 백인 이미지가 흑인 이미지보다 항상 더 고품질로 인식됨
실험의 구성:
- 3,000 장 이미지 (FairFace 80B-20W, 50B-50W, 20B-80W 에서 샘플링)
- 총 54,000 건의 pairwise 비교 수행, AMT 기법 "더 고품질로 보이는 이미지"를 선택
- Bradley-Terry 모델 (순위화 알고리즘)으로 이미지 품질을 Global Ranking 정렬
분석 방법 및 경과:
- Top-K 개에서 얼마나 많은 이미지가 Black 인지? / White 인지?
- 특정 인종이 훈련 데이터에서 많이 등장할수록, 해당 인종 품질이 높아짐
- 백인으로 labeling 된 이미지가 흑보다 전반적으로 더 높은 품질로 평가됨
- 백인 이미지가 다수인 경우 더 높은 품질 순위를 차지
[ 백인 이미지가 더 품질이 좋게 평가되는 경향은 정말로 모델 자체의 문제인가? annotator의 인지 편향 또는 원본 이미지 품질 때문인가? ]
GAN을 완전히 배제한 상태에서, FairFace의 real image 중 black과 white labeled image 1,700 쌍을 뽑아 AMT로 pairwise 비교를 진행하였다.
이상적인 공정한 평가 시스템이라면 인지된 인종에 관계없이 이미지가 50% 확률로 선호되어야 할 것이다.
그러나, 실제 이미지 평가 결과, 백인으로 인지된 이미지가 흑인으로 인지된 이미지보다 55.2% 확률로 선호됨을 보인다. 이러한 차이는 95% Wald 신뢰구간을 가짐을 확인하여 통계적으로 유의미한 편향이 존재함을 확인하였다.
즉, 평가 시스템 자체에 흑인 이미지보다 백인 이미지를 선호하는 편향이 존재함을 확인한 것이다.
생성 모델에서 나타나는 백인 얼굴 선호 현상이 모델의 학습 문제뿐만 아닌, 원래 데이터셋의 특성 또는 평가 과정에서의 편향과 같은 외부 요인에 의해 영향을 받을 수 있다.
그러므로, 공정한 이미지 생성 모델 개발 및 평가를 위해서는 데이터 수집 및 평가 프로세스 전방에 걸친 잠재적 편향을 고려해야 한다.
5. Discussion
StyleGAN2-ADA와 같은 GAN 모델들이 훈련 데이터의 인종 분포를 그대로 반영한다.
이는 데이터의 분포 편향의 명확한 증거이다.
얼굴 생성 모델 분야에서 가장 널리 사용되는 FFHQ dataset은 실제로 흑인 인물의 비율이 약 4%에 불과하며, 이는 전 세계 인구 중 흑인 비율과 비교했을 때 현저히 과소대표된 것이다.
이러한 편향을 인지하지 않고 이 dataset을 사용할 경우, 모델 또한 데이터의 분포를 따라 심각한 인종 편향을 가지게 된다.
따라서, 생성 모델 연구자 및 실무자들은 자신이 사용하는 training dataset의 인종 구성을 명확히 인식하고, 설명 책임을 가져야 한다. 특히, 공정성이나 균형이 요구되는 downstream task에 적용하 ㄹ경우 더더욱 그렇다.
GAN, Diffusion과 같은 생성 모델은 단순히 시각적 품질이 좋다고 해서 "좋은" 모델이라고 할 수 없다.
생성 이미지 품질의 이면에는, trian data의 편향, 알고리즘의 편향, 그리고 사람이 인식하는 방식의 편향까지 복한적인 문제가 존재한다.
Responsibility AI (RAI)는 모든 분야의 과제다.
얼굴 인식
- 문제
- 얼굴인식 알고리즘이 백인 남성에 비해 흑인 여성의 인식 정확도가 낮음
- 실제로 흑인 남성이 잘못 체포되는 사례도 발생 (https://news.nate.com/view/20230926n07403)
- RAI 관점
- 데이터의 대표성과 공정성 없이는, 얼굴 인식은 신뢰가 될 수 없다.
Medical Imaging / Detection
- 문제
- 만약 오진을 한다면? 우리는 진단을 믿을 수 있는가?
- RAI 관점
- 설명 가능한 인공지능의 필요성, 신뢰성과 책임은 의료 AI 기본 조건
LLM
- 문제
- LLM 이 성차별적, 인종차별적, 욕설, 외설적 발언
- 잘못된 정보를 그럴듯하게 설명
- RAI 관점
- 설명 가능한 AI
- 출력의 책임성과 검증 체계
- 사용자 안전을 고려한 toxic filtering
추천 시스템
- 문제
- 기존 추천 시스템을 믿을 수 있는가?
- 인기 편향의 문제
- RAI 관점
- 멀티모달 추천 시스템도 공정성과 다양성 확보가 자동으로 되지 않는다 (On Popularity Bias of Multimodal-aware Recommender Systems: A Modalities-driven Analysis)
- 모달리티 간 불균형 혹은 인기 편향에 대한 명시적 고려가 필요하다
RAI는 새로운 분야이고 새롭게 연구해야 하는 것이 아닌, 우리가 현재 진행 중인 모든 AI 시스템 연구·개발에서 항상 고려해야 할 새로운 관점이라고 생각한다.
내가 만드는 AI 시스템이 어떻게 활용될 것이며, 모두가 공평하게 제공되는 AI 시스템의 효과를 누릴 수 있는가?, 그 시스템은 안전한가? 를 항상 고려해야 한다.
이번에 읽은 RAI 관련 논문을 통해, 단순히 기술적 성능 향상만을 목표로 하는 것이 아니라, 그 기술이 사회에 어떤 영향을 미칠 수 있는지, 그리고 그 영향이 누구에게 어떻게 다르게 작용할 수 있는지를 고민하는 것이 얼마나 중요한지 다시 한번 깨닫게 되었다.
RAI는 AI 개발자와 연구자에게 '무엇을 만들 것인가' 뿐만 아니라, 왜 만들고, 어떻게 사용할 것인가에 대한 책임감을 요구한다. 앞으로의 연구에서는 기술적인 측면뿐만 아니라, 윤리적·사회적 책임을 함께 고민하는 자세가 반드시 필요하다고 느꼈다. 이 관점은 연구 초기 단계에서부터 설계와 평가, 그리고 배포 단계에 이르기까지 전 과정에 자연스럽게 통합되어야 할 핵심 요소라고 생각한다.
'AI > Analysis' 카테고리의 다른 글
AI models collapse when trained on recursively generated data (0) 2024.08.27 What do neural networks learn in image classification? A frequency shortcut perspective (0) 2024.04.03