기본적으로 Causal / bidirectional diffusion loss, Causal / bidirectional stop loss 모두 1:1 비율로 가져가는중
→ 사실 Bidirectional Stop Loss 자체는 필요는 없긴한데 앞에 학습상에서 도움이 되긴할거 같아서 넣어둠
⇒ 앞에 애들 띄엄띄엄하게 보고 EOS 보는것도 학습할테니까 ㅇㅇㅇ
Stop Loss 가 잘 안떨어지고 Diffusion Loss는 빠르게 떨어짐
→ 둘다 시작 스케일은 1~2 사이라서 Diffusion Loss 비중이 너무 커지지는 말라고 1:0.1 비율로 학습중
input_dim 384, nhead, nlayer = 4 로 하다가 너무 작은거 같아서 512, 8, 8 로 늘려서 하는중
EOS 토큰을 explicit 하게 사용하진 않는데 guidance 느낌으로 주고 있긴함.
VAE에서 Noise Robust 하게 하는 법을 어느정도는 넣어야할거같은데 단순히 Diffusion Noise 주입하는 방식으로 해도될듯??
Stop Loss 를 그냥 쌩 Linear Layer로 바꾸기
Hyperparameter Tests