
mask → 모든 위치가 masked 이니까 모두 mask==True 로 시작
tokens → 어처피 모든 위치가 mask이니까 나중에 self.mask_embedding으로 바뀜, place holder

num_iter 만큼 for문 돌림.
여기서 cfg가 1.0이 아니라면, cfg를 써야하기 때문에 batchsize를 두배로 늘리고,
하나는 unconditional generation, 하나는 conditional generation을 함

mask_len → 몇개 masking할지, 이는 mask ration를 따름