>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:48Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:48 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Долгосрочная-краткосрочная память — самый часто используемый вид рекурренток. Придумал его в конце девяностых годов коллектив знаменитого Юргена Шмидтхубера.[1] На первый взгляд, это очень сложная нейросеть. Да, на самом деле, LSTM выглядит сложной и на второй, и на третий, и на последующие взгляды. Но в её основе лежит простая и понятная идея. Цель — сохранение объёма потока ошибки.[2] Предположим, что у нас есть труба, и через неё текут градиенты. И мы хотим, чтобы площадь сечения этой трубы была примерно одинаковой, чтобы у нас не было узких горлышек и очень широких областей. Юрген и ребята придумали так называемую "карусель постоянного объёма ошибки".[2] Это рекуррентность особого вида. Самая главная фишка — в том, что при переходе от предыдущего значения к текущему мы не используем функцию активации, а вместо этого используем операцию сложения. При этом, значения вектора "c" могут быть абсолютно любыми. На значение вектора "c" влияет его предыдущее состояние и ещё 3 сущности. Первая сущность, вектор "g", несёт физический смысл "направления" — куда будет сдвигаться новый вектор "c" относительно его предыдущего значения. При вычислении "g" применяется гиперболический тангенс, поэтому диапазон возможных значений от -1 до +1. Есть ещё две сущности — "f" и "e", они отвечают за амплитуду изменения. Вектор "e" отвечает за чувствительность к "g". Он вычисляется через сигмоиду, поэтому его значения лежат в диапазоне от 0 до 1. Таким образом, он может ослабить влияние "g" на изменение вектора "c". Вектор "e" ещё называют входным шлюзом или "input gate". Вектор "f" отвечает за чувствительность к предыдущему значению рекуррентного состояния. Он также вычисляется через сигмоиду и лежит в диапазоне от 0 до 1. Вектор "f" ещё называют "шлюзом забывания" или "forgetting gate" — он позволяет совершать резкие изменения скрытого состояния и игнорировать всё, что было до определённого момента. И всё-таки, чтобы повысить мощность данной нейросети, к вектору "c" мы применяем нелинейность, чтобы получилось ещё одно рекуррентное состояние — на этот раз с более сложным преобразованием. Всего в LSTM два рекуррентных вектора — "c" и "h". Здесь применяется всё та же идея "гейтинга", когда вектор значений умножается на вектор шлюза, который управляет потоком или амплитудой значений, но не может изменить знак. Вообще "гейтинг" — это один из ключевых приёмов в рекуррентках и в глубоких нейросетях в целом, к нему стоит присмотреться повнимательней. И, напоследок — количество параметров. Если размер скрытого состояния — ddd, то количество параметров сети имеет порядок 8d28 d^28d2 — это очень много. В результате, LSTM часто переобучаются и плохо обобщаются на новые данные (но не всегда).
[1] Long Short-Term Memory, Sepp Hochreiter and Jürgen Schmidhuber, Neural Computation 1997 9:8, 1735-1780
[2] Constant Error Carousel https://deepai.org/machine-learning-glossary-and-terms/constant%20error%20carousel

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.