image.png

mask → 모든 위치가 masked 이니까 모두 mask==True 로 시작

tokens → 어처피 모든 위치가 mask이니까 나중에 self.mask_embedding으로 바뀜, place holder

image.png

num_iter 만큼 for문 돌림.

여기서 cfg가 1.0이 아니라면, cfg를 써야하기 때문에 batchsize를 두배로 늘리고,

하나는 unconditional generation, 하나는 conditional generation을 함

image.png

mask_len → 몇개 masking할지, 이는 mask ration를 따름