https://github.com/FacePerceiver/FaRL

- epoch 64가 face에 대해 잘할 것이라고 생각하여 FaRL-Base-Patch16-LAIONFace20M-ep64를 사용하여 아래 실험들을 진행함
Faceparsing via FaRL
- FaRL를 faceparsing을 위해 학습한 모델이 포함 되어 있는facer의 faceparser를 통해 데이터셋을 parsing함.



- 얼굴이 detect되지 않으면 camera pose를 다시 sample하는 pipeline을 생각하고 있음
- 아래 5개의 camera pose들은 얼굴 detection이 안되기 때문에 faceclip을 쓸 이유가 없다


Is FACECLIP better than CLIP on ILSH
각각의 subject에 대해 18개의 사진을 활용가능
각각의 사진에 대한 CLIP, FACECLIP임베딩을 추출 → 사진당 [1,512]의 vector
18개의 사진이 있기 때문에 각각의 subject당 [18,512]의 feature matrix존재
같은 사람에 대한 18개의 사진의 feature matrix 비교
- feature matrix의 차이의 sum
- feature matrix의 차이
결론 : 확실히 feature의 차이가 보이긴 하는데 그 차이가 매우 작다. feature단에서 얼마나 FACECLIP이 우위인지는 확실하게 알 수가 없다.
Cosine similarity matrix 비교 (18x18)