https://github.com/FacePerceiver/FaRL

Untitled

Faceparsing via FaRL

Untitled

Untitled

Untitled

Untitled

Untitled

Is FACECLIP better than CLIP on ILSH

각각의 subject에 대해 18개의 사진을 활용가능

각각의 사진에 대한 CLIP, FACECLIP임베딩을 추출 → 사진당 [1,512]의 vector

18개의 사진이 있기 때문에 각각의 subject당 [18,512]의 feature matrix존재

같은 사람에 대한 18개의 사진의 feature matrix 비교

결론 : 확실히 feature의 차이가 보이긴 하는데 그 차이가 매우 작다. feature단에서 얼마나 FACECLIP이 우위인지는 확실하게 알 수가 없다.

Cosine similarity matrix 비교 (18x18)