Jerk 는 사실 Instance Level 로 봐야 의미가 있는 메트릭임
→ Naturalness 를 확인하기 위한 메트릭인데 위로도 아래도 너무 낮으면 안된다.
→ 너무 낮아지면 Smoothness 의 신호이고 너무 높아지면 Noisy의 신호이니까
→ 이거에 대해서는 Stage 1 모델들에 대해 어느정도 설명할 수 있음
→ 사람들은 이거에 대해 민감한데 FID는 위든 아래든 이거에 민감하지 않음
VQ 의 Representation 이 딸리기 때문에 Oversmoothing 이 될수도 있고 여러 프레임의 정보를 모두 담을 수 없기 때문에 Frame 간의 Transition 이 자연스러울수도 있다.
L2 가 Optimal 하게 학습된다면 Oversmoothing 된다 이건 어쩔 수 없음 → 작은 데이터셋에서는 그러함
큰 데이터셋에서는 애초에 VQ 자체의 Representation Capability 가 부족하기 때문에 Noisy 해질 수 있다.
Continuous 는 왜 잘하냐? 애초에 continuouns space 에서 동작하는 것 자체의 이점이 있고 → Representation Capability 가 높으니까 Iterative Refinement 를 통해 high fidelity 를 원래 잘 리컨함