데이터 제작 Competition
- 대회 소개
- 지금까지 competition은 대부분 데이터셋이 정해져있고 모델의 성능을 개선 시키는 방식이였지만, 이번 대회는 모델이 정해져있고 데이터를 바꿔가며 성능을 개선 시키는 방식이였다.
- 개인 학습 목표
- 직접 Public 데이터 셋을 구해 인공지능 학습데이터에 추가 함으로써 데이터의 질과 양이 성능에 어떤 영향을 끼치는 지 살펴보는 것
- 학습 목표 달성을 위한 노력
- 다양한 public dataset을 조사해보고 해당 데이터가 활용 가능한지 판단함
- 직접 구한 dataset을 시각화 해 살펴보고 학습을 한 후 성능 확인
- 성능 개선을 위한 노력
- 다양한 scheduler와 learning rate를 실험해보고 해당 데이터셋에 맞는 hyperparameter를 찾음
- 다양한 augmentation을 적용해 보며 실험 함
- AI hub의 개방 데이터와 ICDAR19와 같은 Public dataset을 다운로드하고 annotation 형식을 ufo 형식으로 바꾸어 학습에 활용함
- 느낀 점, 아쉬운 점
- 데이터가 인공지능 성능에 얼마나 많은 영향을 끼치는 지 느낄 수 있었다. 데이터의 양도 중요하지만 적은 양의 양질의 데이터로 성능을 많이 향상 시킬 수 있다는 것을 느꼈다.
- 사용하는 이미지를 완벽하게 조사해보지 못한 것 같다. 추가되는 이미지들을 시각화 하면서 그 품질을 자세하게 관찰, 분석하고 성능 변화를 관찰했으면 좀 더 의미있는 대회가 됐을 것 같아서 아쉽다.
- 다음 p-stage에서 스스로 새롭게 시도해볼 것
- 팀원들과 Baseline코드를 빠르게 리뷰하고 체계적으로 실험을 계획하고 실행하고 싶다.
- Mlflow를 사용해서 실험을 조금 더 효율적이고 간결하게 해보고 싶다.
- git을 적극적으로 활용해 보고 싶다.