Зачем нужно на каждой итерации обучения в коде семинара вызывать zero_grad()?
- zero_grad() переводит модель в режим обучения, без вызова этой функции градиенты не будут вычисляться (будет работать режим валидации)
- zero_grad() существенно ускоряет процесс обучения
- По умолчанию градиенты при каждом вызове loss.backward() аккумулируются, с помощью zero_grad() мы обнуляем градиенты перед новым вызовом backward()
Для просмотра статистики ответов нужно
залогиниться.