Human conversation from videos (NC)

대화 상황에서 agent가 언제 말할지를 detect

→ pose/faical keypoint/audio/text

없는 task를 먼저 정의하는 것 → video에 관한 dataset이 없음
(교수님)problem definition을 먼저 해버리는 것이 중요함→ 논문 쓰기 쉬움

연구의 방향 → 새로운걸 개척하는 연구 또한 존재

치대 협력 과제

치대 데이터셋을 받음 → GPT연결
DOmain specific 지식을 LLM에 넣어버리자 → 논문으론 부족
- 추가 제안 → prompt 매니저를 만들고 각각task에 대한 model을 만들자
  - segmentation, detection etc
- prompt 매니저가 결국 llm이 되는것 (chat dentist)
  - 라마의 성능이 확실하지 않으니 task 매니져를 하는 데이터셋을 통한 finetuning

<aside> 🧑‍🏫 간호대학 융합연구에 활용가능? → 아마 conversational dataset이 없어서 안될듯

</aside>

멀티모달 언어 모델을 메디컬에 적용시키는 task

(교수님)일단은 좀 별로여도 던지는 것도 좋음

Uncertainty Estimation

(교수님)모델이 오답을 만들게 tuning해볼 수 있다

Multimodal-RL

Untitled