T2M 은 Controllable T2M으로 사용한다면, Dense signal을 scene에서 잘 추출해서 넣어주면 동작할 것 같다.
Goal : Semantic diverse + Scene-aware motion generator
Why :
Scene-aware ?
Direction
Naive approach
Finetuning MDM on HSI dataset
options
like OmniControl (freeze backbone ; add controlNet)
like TRUMANS : Voxel Encoder + simple add (freeze backbone)
only learn motion (not-freeze backbone)
: 이건 했을 때 달성하는 목표가 scene-aware과는 무의한듯
: TRUMANS motion과 AMASS motion이 얼마나 차이나는가, 그리고 이렇게 튜닝했을 때 AMASS motion capability를 잃는가 정도
Voxel Encoder + LoRA : TODO
Augment AMASS with scene like HUMANISE → Finetune HUMANISE at this dataset
: 아 뭔가 …… 계속 맘에 걸리네
Ours (current)
training strategy : Game Factory style
Why MI?
naive approach → TRUMANS 에다가 finetuning하는 것이 잘 안 됨
그럼 naive approach는 왜 잘 안 되냐?
Scene-awareness : SDF (SDF gradient)
Why SDF ?
⇒
여기다가 다른 representation으로 LoRA붙여서도 실험해야 하는거 아닌가? comparison용으로…