Зачем мы считаем производную функции потерь по выходу из нейросети?

чтобы понять, как нужно изменить выходы, чтобы улучшить результат работы нейросети (уменьшить лосс-функцию)
чтобы проверить, что все выходы сети будут нормализованы и при суммировании давать "1"
чтобы проверить, что функция потерь непрерывна

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.