기존 GAN, diffusion etc generative model들은 모두 2D 이미지를 생성함.
⚠️ 근데 만약 생성된 image를 다른 viewpoint에서 보고 싶다면 이는 불가능하거나 좋은 퀄리티를 내지 못한다.
→ 이건 viewpoint를 explicit하게 modeling하지 않아서 생기는 문제점이다.
(만약 기존 2D GAN에서 생성된 같은 이미지에 대한 다른 viewpoint의 image를 보고 싶다면 feature space를 잘 disentangle 시켜서 camera viewpoint에 해당되는 축으로 feature를 바꿔줘야 한다. 즉 implicit하게 model안에서 생성된 feature space를 manipulate해야함)
이러한 문제를 해결하는 것이 3D aware image synthesis이다!
결국 generative model들을 3D aware하게 만드는 것이다.
3D aware하게 만드는 가장 쉬운 방법은 3D supervision을 주는 것인데 (image-viewpoint paired dataset) 이러한 데이터는 얻기 상당히 힘듦
그렇기 때문에 GRAF, EG3D등 3D-aware image synthesis task를 다루는 논문들은 모두
3D aware image synthesis from unposed 2D images 라는 task를 풀려고 한다.
2D image synthesis는 바로 2D image를 generate하면 되겠지만 3D image synthesis는 viewpoint를 자유롭게 바꿔야 하기 때문에 추가적으로 Rendering하는 부분이 포함된다.

2D generation pipeline

3D generation pipeline
오른쪽 그림과 같이 무언가를 생성하고 이를 rendering해야하는데, 이때 어떤 무언가를 생성할지 다양한 method들이 존재한다.
이때 PlatonicGAN은 voxel에 3D object를 생성하고 이를 바로 랜더링한다.
반면에 HoloGAN은 voxel에 3D feature을 생성하고 이를 Neural Rendering한다.
→ Neural rendering은 rendering을 하기 전에 NN을 통과하는 방법론이다.
마지막으로 GARF는 NeRF setting을 활용하여 color와 density를 생성한다