걍 생각나는거 다 던져두는 노트임 ㅇㅇ
- MSE에만 의존하는 학습방법의 한계 → Smoothness (VQVAE Recon Loss도 결국 얘니까)
- 이걸 해결하기 위한 다양한 시도 중 하나가 GAN Loss 와 같이 휴먼과 얼라인되는 Perceptual Prior를 걸어주는거임
- 충분히 낮은 MSE에선 이 Perceptual Quality를 올리는 것이 낫다. (Like FID)
- Text Condition 을 걸어줘도 이 Theory 가 성립하는지?
- SDS처럼 Leverating World Models 가 불가능
- Discrete Representation에 엄청난 강점을 Transformer가 보이는 것은 자명함. (왜?)
- Crossentropy loss is equivalent to maximum likelihood estimation in a multinomial logistic regression. Consequently, we get all of the wonderful features of maximum likelihood estimation.
- 그리고 당연히 Continous Representation 을 샘플링하는 Diffusion 류의 메소드 보다 빠르다
- 어떤 Representation 이 가장 Transformer 에게 적합한가?