-FER dataset에 기반한 테스트에서 Crowd-source, 즉 대중들이 평가한 그림들은 65+-5%정도의 정확도만을 보였다.
Consequently, crowd-sourced labels on emotions exhibit only 655% accuracy, as reported for the original FER data set
즉 Dataset의 source로서 대중들은 부정확할수 있다는 것이다. 이 논문은 DCNN의 4가지 scheme을 crowd-source dataset에 어떻게 적용할지에 관하여 서술한다.

기존의 FER dataset을 10명의 tagger들로 다시 labeling 한 dataset이 FER+ dataset이라고 볼 수 있다. 논문에서 채택한 방법은 10명의 tagger들에게 한 이미지당 한 label을 고르게 한 후 Gold standard method를 적용, emotion distribution을 만드는 방법이었다. tagger들의 수가 많아질 수록 Agreement percentage가 높아져 신뢰성이 높아졌다. gold standard 로는
majority voting, multilabel learning, probabilistic label drawing, and cross-entropy loss등이 있다. 이 데이터셋의 size는 64x64, grayscale image다.

모델의 구조는 위와 같은데 VGGnet의 custom이므로 크게 특별한 건 없다. Dropout으로 overfitting을 줄였다고 논문에서는 주장한다. 이와 같은 모델에 Data affine 을 통해 data augmentation을 진행하였다.
다음으로는 Gold standard 방법들의 구체적인 설명이다.


첫번째 방법인 Majority Vote는 말 그대로 가장 많은 Tagger들의 선택을 받은 Label을 정답 Label로 처리하겠다는 전략이다. 매우 직관적인 방법으로


다음으로는 Multi-Label learning이다. 위의 방법은 일정 Threshold 값이상의 Vote를 받은 Label은 모두 True 로 처리하여 한 Image에도 Multi-label이 있을 수 있게 한 전략이다. 위 실험에서는 30%, 즉 3명이었다.


다음 방법으로는 Probabilistic Label Drawing이 있다. Training시 Image당 Label을 10명의 Tagger들이 매긴 Label들중 랜덤 추출한 Label로 target하여 Training시키겠다는 전략이다.