AR의 EOS 예측 & EOS 주입

Ladiff와 BAMM을 보면 length estimator를 사용하지 않고 length를 실제 motion과 같이 모델링하는 것이 더 효과적이라는 것이 알려져 있다.

Full sequence diffusion은 $1:T$를 모두 input하고 generation을 하고, MAR도 사실 그렇게 하게 된다.

VQ-VAE를 활용해서 autoregressive하게 generation을 하는 work들은 EOS를 예측하면 되기 때문에 좀 더 성능이 향상되는 것을 확인할 수 있다 (by BAMM).

CFG를 어떤 형태로 줄 것인가