Вы знаете уже, что есть такой "метод градиентного спуска". Он нужен для оптимизации -- для нахождения минимума функции. И он умеет находить локальный минимум функции (к сожалению, про глобальный он ничего не говорит), но если мы захотим найти локальный минимум функций, то мы можем действовать следующим образом. Возьмём некоторое начальное приближение "x_t", это будет наша какая-то точка. Сначала она может быть выбрана случайным образом. Посчитаем производную "f' (x_t)", то есть производную в этой точке функции "f", и она нам покажет направление наискорейшего роста функции. А нам нужно в минимум, соответственно, нам нужно взять эту производную с минусом. Но если мы просто возьмём производную, это может быть очень большое значение. Надо его домножить на некоторую константу. Эта константа называется "альфа", или "learning rate", или шаг градиентного спуска. Обычно она выбирается где-то: 1e-3, 1e-4. Её можно потом изменять в ходе градиентного спуска, но скажем пока, что это некоторая константа "альфа". Домножим нашу производную "f'(x_t)" в точке "x_t" на эту "альфу" и скажем, что наше следующее приближение, точка в которой мы хотим находиться: "x_(t+1)" -- это точка, которая отличается от "x_t" на это значение. И новое значение функции на первом шаге, соответственно, вычисляется таким же образом.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.