Зачем в функции predict_tags() мы делаем вызов torch.no_grad()?

  • для автоматического подбора оптимального размера батча
  • для деактивации autograd (без вычисления градиентов будет использоваться меньше памяти и скорость работы увеличится)
  • для перевода модели в режим eval (например, чтобы Dropout или BatchNorm слои работали в режиме eval)
  • для того, чтобы можно было делать backprop не только во время обучения сети, но и на этапе предсказания тегов
Для просмотра статистики ответов нужно войти.