Может ли при обновлении параметров согласно формуле wt+1=wt−α∇f(wt)EMAγ(∇f2)t√wt+1=wt−α∇f(wt)EMAγ(∇f2)tw^{t + 1} = w^t - \alpha {\nabla f(w^t) \over \sqrt{EMA_{\gamma} (\nabla f^2)^t}} произойти деление на 0 в знаменателе?

  • Может, в этом случае следует использовать другой оптимизатор
  • Может, в этом случае следует обновить параметр gamma в EMA
  • Может, но в знаменателе 0 может появиться только в том случае, если градиент всегда был равен 0 -- это значит, что мы начинали обучение в точке оптимума.
  • Не может, так как сумма квадратов всегда положительна
Для просмотра статистики ответов нужно залогиниться.