Зачем нужно на каждой итерации обучения в коде семинара вызывать zero_grad()?

  • zero_grad() переводит модель в режим обучения, без вызова этой функции градиенты не будут вычисляться (будет работать режим валидации)
  • zero_grad() существенно ускоряет процесс обучения
  • По умолчанию градиенты при каждом вызове loss.backward() аккумулируются, с помощью zero_grad() мы обнуляем градиенты перед новым вызовом backward()
Для просмотра статистики ответов нужно залогиниться.