https://github.com/FacePerceiver/FaRL

Untitled

epoch 64가 face에 대해 잘할 것이라고 생각하여 FaRL-Base-Patch16-LAIONFace20M-ep64를 사용하여 아래 실험들을 진행함

Faceparsing via FaRL

FaRL를 faceparsing을 위해 학습한 모델이 포함 되어 있는facer의 faceparser를 통해 데이터셋을 parsing함.

Untitled

Untitled

Untitled

얼굴이 detect되지 않으면 camera pose를 다시 sample하는 pipeline을 생각하고 있음
- 아래 5개의 camera pose들은 얼굴 detection이 안되기 때문에 faceclip을 쓸 이유가 없다

Untitled

Untitled

Is FACECLIP better than CLIP on ILSH

각각의 subject에 대해 18개의 사진을 활용가능

각각의 사진에 대한 CLIP, FACECLIP임베딩을 추출 → 사진당 [1,512]의 vector

18개의 사진이 있기 때문에 각각의 subject당 [18,512]의 feature matrix존재

같은 사람에 대한 18개의 사진의 feature matrix 비교

feature matrix의 차이의 sum
feature matrix의 차이

결론 : 확실히 feature의 차이가 보이긴 하는데 그 차이가 매우 작다. feature단에서 얼마나 FACECLIP이 우위인지는 확실하게 알 수가 없다.

Cosine similarity matrix 비교 (18x18)