Untitled

✍️ Abstract

Few shot으로 NeRF scene을 만들기 위하여 scene object의 semantic한 정보를 활용한다.

주어진 image의 pose에 대해서는 정확하게 render하도록, 다른 pose에 대해서는 input image들과 같은 semantic을 갖도록 학습을 한다.

즉, “어떠한 방향에서 보든, object의 semantic한 정보는 같다”라는 점을 활용하는 것이다.

🔒 Prerequisites

🤔 Motivation

NeRF Struggles at Few-Shot View Synthesis

Untitled

기존 NeRF는 input view가 많으면 상당히 복원을 잘한다. 이는

  1. NeRF의 training이 한 view의 image에 대한 모든 ray에서 진행 되지 않고 subsampled 된 ray들을 활용하여 overfitting을 피한다.

  2. positional encoding의 high frequency details를 잡게 도와준다

덕분인데, view가 적으면 (B)와 같이 few view에 대해 overfitting되며 training view가 아닌 view에 대해서는 터무니 없는 결과를 보여준다.

Near-field ambiguity from NeRF++ (1)

Untitled

(C)위와 같은 overfitting을 피하기 위하여 다양한 regularization과 tuning을 거치면 어느정도 prediction이 되지만 fine detail들이 사라진다.