본문 바로가기
카테고리 없음

[ICCV 2015] FaceNet: A Unified Embedding for Face Recognition and Clustering 핵심 리뷰

by Gradient Ascent Algorithmer 2021. 12. 3.

내용 요약

CNN feature를 L2 norm + triplet loss를 사용하는 새로운 face recognition 방법론을 제안합니다.

이를 학습시키기 위해서는 hard triplet selection이 중요함을 강조합니다.

 

 

 

안녕하세요.

오늘은 ICCV 2015 FaceNet: A Unified Embedding for Face Recognition and Clustering 핵심 내용을 정리해보겠습니다.

제안 방법

저자들은 CNN feature에 triplet loss를 적용한 fece recognition 방법론을 제안합니다.

바로 제안하는 방법을 살펴보겠습니다.

Point 1. Architecture

먼저 architecture를 살펴보겠습니다.

architecture
architecture

먼저 Batch input image를 CNN을 이용해 feature를 추출합니다.

그 뒤 feature에 L2 norm을 적용해 크기를 1로 만든 뒤 triplet loss로 학습하는 구조를 하고 있습니다.

Point 2. Loss Function

다음은 loss function을 살펴보겠습니다.

Loss function으로는 triplet loss를 사용했습니다.

triplet-loss
triplet-loss
triplet-loss-sum
triplet-loss-sum

기준이 되는 face feature를 anchor feature, 동일 인물의 face feature는 positive feature, 다른 인물의 face feature는 negative feature라고 할 때, anchor feature & positive feature는 가까워지도록, anchor feature & negative feature는 멀어지도록 학습하는 방식입니다.

Point 3. Triplet Selection

위의 loss로 학습을 진행하면 쉽게 converge 하는 모습을 볼 수 있습니다.

이는 학습이 잘 되었다기 보다는 쉬운 문제가 뽑히는 경우가 많기 때문입니다.

예를 들어 anchor와 positive이미지는 너무나 비슷하고, anchor와 negative 이미지는 너무 달라서 특별히 학습을 더 진행하지 않아도 조건을 만족하는 경우가 많은 것입니다.

따라서 학습을 잘 진행시키기 위해서는 triplet selection 방식이 중요하다고 강조합니다.

즉 anchor와 동일 인물이지만 아주 다른 사진을 positive로, 다른 인물이지만 옷차림 등이 매우 비슷한 사진을 negative로 고르는 게 중요하다는 것입니다.

이를 위해 저자들은 online generation 방식을 선택합니다.

이 방식은 mini batch안에서 그나마 어려운 triplet을 선택하는 방식입니다.

 

댓글