Temporal VAE의 traing 실험. qf3을 기준으로 시작했다.


을 제외하고 모두 터졌다.
모델의 layer수가 커질 수록 더 불안정한 것을 확인해 볼 수 있다.
1 layer일 때는 안정적으로 학습이 된 반면, 2,3,4 layer를 사용했을 때, 터졌다.
3,4 layer에 비해 2 layer가 더 안정적이다. 이는 std가 0으로 수렴해버리는 현상과 recon loss가 2.088 로 수렴해버리는 현상으로 매우 불안정하다는 것을 알 수 있다.

std가 0이 되어 버리면 터지고, 모델이 커지면 오히려 불안정하다.
이는 kldivergence weight를 늘리면 해결될 것이다. (현재 kld의 weight는 0.0001)
이건 ACTOR나 MLD에서 쓰는 TransformerVAE가 쓰는 weight이고 temporalVAE는 무엇이 맞을지 고민해봐야함. 다만, kl이 커지면 recon 성능이 떨어짐!


노란색이 qf가 1일 때