Может ли при обновлении параметров согласно формуле wt+1=wt−α∇f(wt)√EMAγ(∇f2)tw^{t + 1} = w^t - \alpha {\nabla f(w^t) \over \sqrt{EMA_{\gamma} (\nabla f^2)^t}} произойти деление на 0 в знаменателе?

  • Может, в этом случае следует использовать другой оптимизатор
  • Может, в этом случае следует обновить параметр gamma в EMA
  • Может, но в знаменателе 0 может появиться только в том случае, если градиент всегда был равен 0 -- это значит, что мы начинали обучение в точке оптимума.
  • Не может, так как сумма квадратов всегда положительна

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.