Transfer-based attack

 

  • Adversarial example은 모델 사이 전송 가능한(transferable) 특징이 있다.
  • 이러한 transferability를 이용한 공격 방법은 다음과 같다.
    1. 공격자가 개인적으로 대체 모델(substitute model)을 학습한다.
    2. 자신의 대체 모델에 대해 white-box 공격을 수행해 adversarial example을 생성한다.
    3. 해당 adversarial example을 공격 대상인 black-box에 넣어 최종적으로 공격을 수행한다.
  • Transfer-based attack이 가능한 이유
    • 유사 학습 데이터 세트로 학습한 모델은 유사한 decision boundary를 가지기 때문에
  • 현실적 공격 기법 (ASIA CCS 2017)
    • 추가적 쿼리를 날려 black-box 모델과 더욱 유사한 surrogate 모델을 만들어 공격
  • 다른 관점에서의 분석 (NIPS 2019)
    • Adversarial perturbation을 non-robust feature로 이해할 수 있다.
    • 모델들이 유사한 generalized non-robust feature를 학습하므로 transferability가 존재
  • 대표적 방어 기법 (ICLR 2018)
    • Ensemble adversarial training은 transfer-based attack에 대해 높은 방어율을 보임

Momentum Iterative Fast Gradient Sign Method (MI-FGSM)

 

  • Non-targeted 공격을 위한 목적 함수
    • https://arxiv.org/pdf/1710.06081.pdf
      각 픽셀에 대해 epsilon만큼만 바뀔 수 있도록 하되, loss function값을 최대로 만들 수 있도록 하는 것. 
    • g_t는 처음부터 t개의 기울기(gradient) 정보를 갖고 있다. (Momentum)
      • 이전까지 기울기 정보를 활용해 poor local maxima에 빠지지 않도록 하고, 더 우수한 perturbation을 만들 수 있도록 한다.
    • 만약 μ 값이 0이라면 일반 I-FGSM과 같다.
    • 공격이 수행되는 과정에서 기울기 벡터 크기는 다양하게 존재할 수 있으므로 L_1거리로 정규화한다.
    • 전체 알고리즘
      • https://arxiv.org/pdf/1710.06081.pdf
  • MI-FGSM for Ensemble of Models
    • Ensemble in logits 메서드를 제안한다.
      1. Logits값 가중치 합을 계산한다.
      2. 이후 softmax cross-entropy loss를 이용해 전체 loss value를 계산한다.
    • Non-targeted 공격을 위한 목적 함수
      • https://arxiv.org/pdf/1710.06081.pdf
    • 전체 알고리즘
      • https://arxiv.org/pdf/1710.06081.pdf
  • MI-FGSM 장점
    • FSGM은 공격 대상 모델에 대해 under-fitting되는 특징이 있다.
      I-FSGM은 과하게 over-fitting되며 poor local miaxima에 빠질 수 있다.
      MI-FSGM은 withe-box 공격과 black-box 공격에서 모두 우수한 성능을 보인다.
    • MI-FSGM을 이용할 때 만들어지는 pertubation들의 코사인 유사도가 높다. 여러 번 attack을 시행하더라도 그 때 만들어지는 pertubation들이 유사한 특성을 가진다는 것이다. 즉, 특정한 local minima에 각각 개별적으로 빠지는 것이 아닌 상대적으로 더 global한 maxima를 찾을 수 있다는 것이다.
      • 안정적인 업데이트를 보인다. 쉽게 exceiptional decision region에 빠지지 않는다.
      • 결과적으로 높은 transferability를 보인다.

 

 

+ Recent posts