기존 LDM 이 3x256x256 → 128x256x256 → … → 512x16x16 → 16x16x16 으로 가는걸 착안해서 1D에서 비슷한걸 해보자
-
263x196 이라고 생각하면 263x196 → 384x98 → 384x49 → 16x49 로 가는 루트
- 원래 LDM은 (1,1,2,2,4) 로 가는걸 (1,1) 로 바꿔도 그냥 Implementation하면 20M 가까이 파라미터가 나옴
- Depthwise Covvolution → 애초에 263 안에서 큰 Locality가 없다고 가정하면 Depthwise Convolution을 쓰는게 계산량 줄이면서 효율적일수도 있음 (5M)
- Depthwise Convolution + Vanilla Convolution → 연산량 헤비한 부분에서만 써보기 (5.5M)
- Bottleneck Resnet → 애초에 우리가 채널이 많긴한데 그렇다고 연산을 너무 헤비하게 할만큼 Representation이 복잡하진 않을거같음 (3.5M)

-
Embedding Dimension Ablation
- Embedding Dimension을 그냥 Depthwise Convolution + Vanilla Convolution + Bottleneck Resnet 세팅에서 32로 늘려봤는데 Recon Loss가 팍 줄음
-
DVAE랑 DCBAM 쪽도 Implementation 해봐야하는데
-
dim 32 KL 0.0001 로 했을 때 200에폭쯤에서 제일 좋은 성능이 나옴 (FID, MPJPE, Precision 등)
- 나머지 경우들이 다 이걸 못이긴다… KL Weight 올린경우 + 파라미터 늘린경우 + Embed dim 줄인경우 + 에폭 1000까지 다 돌아간 경우 등
- 왜일까? → Train / Val Loss 는 계속 감소함.