1. adapting MAR baseline on random VAE settings

    Question : is motion more like image or text. Do we actually need to avoid VQ?

    그냥 VQ 없이 한다는걸 너무 메인으로 밀어붙이면 공격받을수도 뭐가 다르냐고