Может ли при обновлении параметров согласно формуле wt+1=wt−α∇f(wt)EMAγ(∇f2)t√wt+1=wt−α∇f(wt)EMAγ(∇f2)tw^{t + 1} = w^t - \alpha {\nabla f(w^t) \over \sqrt{EMA_{\gamma} (\nabla f^2)^t}} произойти деление на 0 в знаменателе?
- Может, в этом случае следует использовать другой оптимизатор
- Может, в этом случае следует обновить параметр gamma в EMA
- Может, но в знаменателе 0 может появиться только в том случае, если градиент всегда был равен 0 -- это значит, что мы начинали обучение в точке оптимума.
- Не может, так как сумма квадратов всегда положительна
Для просмотра статистики ответов нужно
залогиниться.