HSI + T2M 을 푼다면 다음과 같이 풀 수 있지 않을까?

T2M 은 Controllable T2M으로 사용한다면, Dense signal을 scene에서 잘 추출해서 넣어주면 동작할 것 같다.


Interaction , 풀 수 있는걸까?


중간 점검

  1. Goal : Semantic diverse + Scene-aware motion generator

  2. Why :

    1. HSI dataset lacks semantic diversity
    2. T2M dataset lacks scene-aware
  3. Scene-aware ?

    1. collision avoidance
    2. HSI interaction
      1. ex. sit down on a chair
  4. Direction

    1. Data-driven finetuning (+ additional modeling)
    2. Diffusion controllability
  5. Naive approach

    1. Finetuning MDM on HSI dataset

      options

      1. like OmniControl (freeze backbone ; add controlNet)

      2. like TRUMANS : Voxel Encoder + simple add (freeze backbone)

      3. only learn motion (not-freeze backbone)

        : 이건 했을 때 달성하는 목표가 scene-aware과는 무의한듯

        : TRUMANS motion과 AMASS motion이 얼마나 차이나는가, 그리고 이렇게 튜닝했을 때 AMASS motion capability를 잃는가 정도

      4. Voxel Encoder + LoRA : TODO

    2. Augment AMASS with scene like HUMANISE → Finetune HUMANISE at this dataset

      : 아 뭔가 …… 계속 맘에 걸리네

  6. Ours (current)

    1. training strategy : Game Factory style

      1. Motion inbetweening LoRA
        • Scene-awareness Module LoRA

      Why MI?

      naive approach → TRUMANS 에다가 finetuning하는 것이 잘 안 됨

      그럼 naive approach는 왜 잘 안 되냐?

      • 데이터가 너무 짧아서 문제가 되는 것 같음 AMASS랑 distribution이랑 다름
      • frame length gap 있음
      • scene-awareness를 주입하려면 어떤 task로 finetuning하는 것이 필요한데, text free하게 함으로써 다양한 scene 과 motion을 활용할 수 있으므로 해결이 가능할 것으로 보았음
    2. Scene-awareness : SDF (SDF gradient)

      Why SDF ?

      여기다가 다른 representation으로 LoRA붙여서도 실험해야 하는거 아닌가? comparison용으로…