ToDos (~10/24)

Rectified Flow VQVAE

[x] Vanilla RF VQVAE 성능 측정
- GT : FID 0.002, Diversity:9.503, R@1: 0.511, R@2: 0.703, R@3: 0.794, Matching Score: 2.974
- Current SOTA VQVAE (MogenTS) : FID 0.00490, Diversity:9.501, R@1: 0.512, R@2: 0.704, R@3: 0.798, Matching Score: 2.978, MPJPE: 0.0138
- 2nd SOTA VQVAE (MoMask) : FID: 0.019, Diversity:9.565, R@1: 0.508, R@2: 0.701, R@3: 0.795, Matching Score: 2.999 MPJPE: 0.0295
- Initial VQVAE : FID 0.01135, Diversity: 9.45580, R@1: 0.50108, R@2: 0.69246, R@3: 0.79030, Matching Score: 2.99965, MPJPE: 0.02600
- 🧊 VQVAE + MLP RF + Deterministic Sampling : FID: 0.00574, Diversity: 9.84879, R@1: 0.50647, R@2: 0.70517, R@3: 0.80194, Matching Score: 2.97357, MPJPE: 0.02498
- 🧊 VQVAE + MLP RF + Stochastic Sampling : FID: 0.00466, Diversity: 9.91813, R@1: 0.50625, R@2: 0.70065, R@3: 0.79310, Matching Score: 2.98611, MPJPE: 0.02903
- 🧊 VQVAE + MLP RF + Reflow + Stochastic Sampling : FID: 0.00449, Diversity: 9.68110, R@1: 0.50259, R@2: 0.69289, R@3: 0.79246, Matching Score: 2.98694, MPJPE: 0.02900
→ Tradeoff between stochastic / deterministic sampling in FID / MPJPE

→ Effect of reflow is not significant

→ Implemented with very basic MLP (BxSxD → B*SxD) : No Attention Used
[x] Architecture Improvements
- [ ] UNet / Transformer (or at least some attention in temporal dimension)
  - 위에서 보면 굳이 클 필요까진 없을듯?
  - 패딩을 처리해야하는게 문제 (지금 있는 Unet 레이어에 LinearAttention이 들어가는데 이게 Padding Mask를 아마 구조적으로 핸들링할 수 없는것 같긴하다.)
- [ ] End to End Training (Following Sample what you cannot compress scheme)
  - 🔥 VQVAE (Recon Loss + Commitment Loss)
  - VQ학습시 에 2 Stage에 도움되는 Constraint를 줄 수는 없을까? (Loss or Reg)
- [x] Text Conditioning (추후에는 반드시 필요할 것이라고 생각됨)
  - Text Embedding 같은 벡터형태는 MLPAdaLN이랑 Unet에서 바로 처리할 수 있음.
  - 일단은 필요없을 것 같은데 더 큰 텐서에 Conditioning은 Concat으로 대부분 처리
- [x] Reflow 의 유효성 검증
  - 일단 Vanilla Version 에서는 미묘함. 10에폭 이상만 학습해도 loss가 정신을 못차리는데 그냥 MLP가 너무 후달려서 그러는거일수도 있으니 다른 구조에서 확인은 해봐도될듯
  - Reflow 해도 Full step generation은 Reflow 안한거보다 못하다는 결과가 원 논문에 있는데, 적은 스텝에서는 (그리고 이걸 해야 1step generation이 가능) 성능이 더 잘나오는 모습을 보임
  - Reflow 안쓰는 경우도 많음
- [ ] 다양한 파라미터, 디자인 검증
  - 과연 Direct Flow가 가장 Optimal 한가? std=0.1 은 적당한가? 등
    - Conditioning 보다는 좋다라는게 논문에서 보여주기는 함. (그리고 굳이 Pretrained World Model이 없는데 Conditioning 할 필요는 없어보인다.)
      
      → 이거에 대한 설명이 있긴했네 (Condition 시키면 Posterior MSE랑 동치다)
- [ ] Theoretical Background
  - [ ] 논문에 왜 해야하는가? 왜 좋은가? 에 대한 뒷받침을 해줄만한 근거들 정립. (이거만 잘하면 사실 뒤에 T2M 제끼고 이것만으로도 가치가 있을거같은데 → CVPR 스타일은 아니긴함 근데 ㅋㅋ)
  - [ ] 참고논문 리딩
    - 참고논문 (위에 두개는 읽어보길 강추)

Vanilla (2D)VQVAE + RF 에 대한 T2M 성능 측정

[ ] MMM 스킴을 그대로 따라서 Bidirectional 1 Stage Generation (일단 1D로 Flatten해서 빠르게 확인?) (Fixed Length) → WIP
[ ] 결국 우리가 2DVQVAE를 가지고 있기도 하고 성능이 좋다는게 충분히 보여진것 같으므로 MogenTS 의 2D Token Map + 2D Masking Strategy Handling (단 밑에 Autoregressive + Bidirectional 세팅과의 연결도 고려해야함.)
[ ] BAMM의 Autoregressive + Bidirectional 세팅 차용
- 2D Token Map 이기 때문에 Mask Strategy 가 더 다양하게 존재함. 고민해봐야할듯.
- Masking 을 애초에 BAMM처럼 Attention 단에서 할건지 Mask Token으로 할건지
  - 적어도 Autoregressive 라는 Task 를 공유한다라는 측면에서 BAMM은 Causal & Causal/Bidirectional Mask를 사용하는데, Show-O 처럼 아예 다른 태스크를 풀어도 되기는 하는듯
  - 근데 그래도 어느정도 배울걸 공유하는게 좋다고 생각은 듦
[ ] Architecture 고정하면 VQVAE 디자인 등 바꿔가면서 Ablation 해보기
[ ] 왜 VQVAE가 잘되는가? 에 대한 고찰 (Like Cross Entropy)

→ VQVAE + Continuous refinement 라는 Pipeline 을 우리가 왜 사용해야하는가?

Diffusion VQVAE

[ ] 버그 해결하고 성능 측정 (RF에 비해 속도 + 성능 강점이 있는가?)
- High-Fidelity Image Compression with Score-based Generative Models 여기에선 적은 Training Iteration에서 RF가 압도적으로 잘하는데 Training을 많이할수록 디퓨전한테 밀린다. (디퓨전은 성능이 계속 좋아짐)
- 일단 성능이 더 잘나오면 속도는 개선할 방법이 많으니까.. (ODE Sampling, Distillation 등)

MAR

[x] 일단 잠정 중단. (현재까지 최고 FID : 0.5정도 → 버그일 가능성 / cts를 바로 학습하기엔 데이터가 부족할 가능성)
[ ] Large Scale 에 대한 Future Works?