Название исследуемой задачи: | On the periodic behavior of DNN's training. Grokking effect. |
---|---|
Тип научной работы: | M1P |
Автор: | Мельник Юрий Максимович |
Научный руководитель: | к.ф-м.н. Ветров Дмитрий Петрович |
Научный консультант(при наличии): | Южаков Тимофей Алексеевич |
Периодичность в обучении глубоких нейронных сетей имеет большое значение для понимания и улучшения процесса их обучения. Изучение этой особенности может помочь оптимизировать время, которое необходимо потратить для наступления генерализации модели, а также повысить обобщаюшую способность выбранной архитектуры. В данной работе будут приведены результаты исследования периодического поведения при обучения нейронных сетей на примере эффекта ”гроккинга” - явления, связанного с переобучением нейросетевых, в частности, трансформерных моделей и описанного в одноимённой статье ”Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” исследователями из OpenAI.