Does discrete methods have jitters?
Ladiff와 BAMM을 보면 length estimator를 사용하지 않고 length를 실제 motion과 같이 모델링하는 것이 더 효과적이라는 것이 알려져 있다.
Full sequence diffusion은 $1:T$를 모두 input하고 generation을 하고, MAR도 사실 그렇게 하게 된다.
VQ-VAE를 활용해서 autoregressive하게 generation을 하는 work들은 EOS를 예측하면 되기 때문에 좀 더 성능이 향상되는 것을 확인할 수 있다 (by BAMM).