초록

인공지능이 발달함에 따라 인공지능의 오판을 야기하는 적대적 공격 기법도 발전하였다. 이를 방어하기 위해 주로 신경망의 강건성을 증가시키는 데 초점을 맞춰 연구가 이루어졌다. 하지만 기존 방어 기술들은 다양한 공격 방법에 대해 강건하지 않아 새로운 유형의 공격에는 취약하다. 또한 방어율을 향상하는 동시에 모델의 정확도를 유지하기는 매우 어렵다. 본 연구에서는 다양한 공격 기법에 대해 균일하게 방어하면서 신경망의 정확도도 유지할 수 있는 새로운 신경망 훈련 및 추론 기법을 제안한다. 본 연구에서 제안하는 알고리즘은 특이값 분해(SVD)를 사용하여 무작위화 기반의 이미지 재구성을 수행하고, 이를 통해 입력 데이터를 공격자가 예측할 수 없게 만들어 적대적 공격을 방어한다. CIFAR-10 데이터 세트에서 제안하는 방법을 실험하여 간단하면서도 균일한 방어가 가능한 방어 기술임을 확인하였고, FGSM 공격에 대해서는 최종 방어율 61%를 기록하여 성능을 입증하였다.

키워드

적대적 공격, 특이값 분해, 공격 방법에 무관한 방어, 딥러닝

참고문헌(0)