연장 사유
- 다양한 방면에서 여러가지 시도를 해봤지만 최종 성능/결과가 좋지 않아 팀원들과 상의해본 결과 유의미한 결과를 위해 더 시간을 투자하고자 하는 인원들이 많아서 기간 연장을 부탁하게 됨
- 특히 VAE 같은 경우 다양한 trick들을 써서 성능을 유의미하게 끌어 올렸지만 기존 baseline에 전혀 못미치는 성능을 보이고 있어 큰 방향을 다시 고민하게 됨
연장 기간 동안의 계획
기존 방향
- 기존 문제 정의 : Transformer XL은 architecture상 meta data를 통한 controllability의 한계가 존재한다.
- 접근 방법 : VAE를 통해 generation controllability를 강화시키고 diversity또한 증가시켜보자.
현재 방향
- 문제 정의 : transformer XL의 attention 메커니즘은 최근 sota모델들의 attention과 computational cost와 adaptiveness측면에서 뒤처진다.
- 접근 방법 : 현재 Transformer-xl baseline을 유지 하며 sota attention기법, memory기법, positional encoding방법론 적용
관련 reference
Dynamic Evaluation of Neural Sequence Models