Human conversation from videos (NC)
대화 상황에서 agent가 언제 말할지를 detect
→ pose/faical keypoint/audio/text
-
없는 task를 먼저 정의하는 것 → video에 관한 dataset이 없음
-
(교수님)problem definition을 먼저 해버리는 것이 중요함→ 논문 쓰기 쉬움
연구의 방향 → 새로운걸 개척하는 연구 또한 존재
치대 협력 과제
- 치대 데이터셋을 받음 → GPT연결
- DOmain specific 지식을 LLM에 넣어버리자 → 논문으론 부족
- 추가 제안 → prompt 매니저를 만들고 각각task에 대한 model을 만들자
- segmentation, detection etc
- prompt 매니저가 결국 llm이 되는것 (chat dentist)
- 라마의 성능이 확실하지 않으니 task 매니져를 하는 데이터셋을 통한 finetuning
<aside>
🧑🏫 간호대학 융합연구에 활용가능? → 아마 conversational dataset이 없어서 안될듯
</aside>
멀티모달 언어 모델을 메디컬에 적용시키는 task
- (교수님)일단은 좀 별로여도 던지는 것도 좋음
Uncertainty Estimation
(교수님)모델이 오답을 만들게 tuning해볼 수 있다
Multimodal-RL
