넓이가 무한한 neural network를 이론적으로 분석하려는 시도가 최근 많다. 언뜻 들으면 왜 이런 연구를 하지라고 생각할 수 있지만, 이런 neural network들은 Neural Tangent Kernel을 갖는 선형 모델로 단순화 된다는 것이 밝혀졌고, 이로 인해 gradient descent를 단순하게 설명할 수 있게 되었다.

또한, 이런 kernel을 통한 설명이 굳이 width가 무한함을 필요로하지 않고 모델의 scale에 따르는 기준을 사용해도 무방하다. 이에 Gradient descent의 convergence를 간단한 example로 직관적으로 이해해 볼 수 있다.

Setup

1-D input, 1-D output 2hidden layer(m channels)모델을 생각해보자.

Untitled

f(x,w)f(x,w