Мы с вами уже рассмотрели, что такое нейронная сеть в принципе, и рассмотрели некоторые loss-функции для нейронных сетей: в каких случаях применяются одни loss функции, и в каких задачах применяются другие loss функции. Мы с вами уже знаем, что loss-функция нужна для того, чтобы нейронная сеть могла понимать, в какую сторону ей нужно двигаться для того, чтобы улучшать свои результаты. Для того чтобы, собственно, производить это движение, нужны оптимизаторы. Сегодня мы рассмотрим с вами оптимизматоры, (которые также называются методами оптимизации), которые применяются в нейронных сетях. Наиболее распространённым и наиболее простым оптимизатором является градиентный спуск. Что делает градиентный спуск? Допустим, в нашем случае есть некоторая функция, которая задана линиями уровня. У этой функции есть два минимума, которые мы здесь видим. Они отмечены красными точками. Вдоль этой линии значения функции, которая нас интересует, одинаковы. И при удалении от точек точек минимума значение функции увеличивается. Итак, у нас есть некоторая нейронная сеть. У нас есть некоторые параметры этой нейронной сети, и с этими параметрами наша нейронная сеть показывает некоторое значение loss функции. То есть в этом месте, с параметрами "w_j0" и "w_i0" loss функция на обучающией выборке равна значению, которое выдает эта функция. Как нам улучшить результат работы нейронной сети? Нужно уменьшать loss-функцию.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.