Зачем в функции predict_tags() мы делаем вызов torch.no_grad()?

для автоматического подбора оптимального размера батча
для деактивации autograd (без вычисления градиентов будет использоваться меньше памяти и скорость работы увеличится)
для перевода модели в режим eval (например, чтобы Dropout или BatchNorm слои работали в режиме eval)
для того, чтобы можно было делать backprop не только во время обучения сети, но и на этапе предсказания тегов

Для просмотра статистики ответов нужно войти.