Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:57Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:57 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
И, самое главное, рекуррентки обучаются не так легко. Здесь появляются проблемы затухания или взрыва градиента. Поэтому современные работы в области рекурренток, в основном, связаны с поиском баланса между мощностью и стабильностью процесса обучения. Давайте попробуем понять, откуда берутся эти самые проблемы — затухание и взрыв градиента. Мы это будем делать на примере классической рекуррентки (такие сети ещё называют "vanilla"). При этом мы будем считать, что размерность всех переменных (входных данных и скрытого состояния) равна единице, то есть мы будем работать только со скалярными операциями. Для простоты будем считать, что мы предсказываем одну единственную величину по всему тексту — например, мы решаем задачу классификации и класс предсказываем на основе значения состояния на последнем шаге, то есть после прочтения всего входного текста. Соответственно, предсказание подаётся в функцию потерь или функционал качества, исходя из которого мы будем градиентным спуском настраивать параметры нейросети. Здесь мы не будем специфицировать, какую конкретно функцию активацию мы используем — для того, что мы хотим сделать, это неважно. Итак, до прочтения первого слова у нас уже есть начальное состояние — это тоже параметр сети. Затем мы читаем первое слово и находим новое значение скрытого состояния. Затем — ещё слово, и при этом важно помнить, что h1, на самом деле — это функция от начального состояния и первого слова. Ну, и так далее... Таким образом мы получим глубокую композицию функций.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.