>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:55Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:55 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Мы дошли до производной последнего рекуррентного состояния по весам. Вот это значение равно htth_ttht​t. Так так! Давайте здесь остановимся поподробнее. Мы опять берём производную сложной функции, поэтому результат будет равен произведению производной самой функции и производной её аргумента. Производная самой функции нас пока что не сильно интересует, поэтому введём обозначение для краткости, в качестве "f штрих" с нижним индексом t (ft′f_t'ft′​). z от w тоже не зависит, поэтому оно сокращается. И тут мы вспоминаем, что h — это функция, которая зависит от w, поэтому мы применяем правило дифференцирования произведения функций. Производная w по w равна единице. Чтобы найти производную предыдущего состояния, раскроем его (получим такое вот выражение). Это выражение очень похоже на то, с чего мы начали. Отлично, давайте тогда просто возьмём и подставим, только индексы, заменим на новые. Мы подставили сюда производную предпоследнего скрытого состояния. Мы можем продолжить эту процедуру дальше до самого первого элемента и начального состояния — тогда получим следующую формулу. Вполне логично — производная w зависит от всех шагов. А ещё, внутри есть произведение всех производных функции активации на нескольких шагах — вот тут-то собака и зарыта.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.