Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:38Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:38 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Теперь давайте немного отойдём от self-attention и вспомним, как работает LSTM. Именно двунаправленный LSTM и лежит в основе популярной модели, которая выдаёт хорошие контекстуализированные эмбеддинги. Эта модель называется ELMo.[1] ELMo расшифровывается как "Embeddings from Language Models". Модель смотрит на всё предложение, прежде чем присвоить слову какое-то векторное представление. ELMo, точно так же, как и ранее рассмотренные модели, учиться решать задачу языкового моделирования, но уже не с помощью архитектуры на основе трансформера, а с помощью LSTM (а точнее, даже двух LSTM, которые смотрят в разные стороны). Давайте чуть подробнее про это. Одна LSTM смотрит вперёд и учиться предсказывать следующее слово при наличии контекста, то есть, всех слов, которые расположены левее того, которое нужно предсказать. А вторая LSTM смотрит назад и предсказывает предыдущее слово, зная все слова, стоящие правее от текущего слова. Такая LSTM называется двунаправленной (или, по-английски, bi-directional). Итоговое векторное представление слова получается путём конкатенации скрытых состояний из обеих частей LSTM. Можно конкатенировать эти скрытые состояния разными способами. Например, вектора скрытых состояний можно домножить на веса и, затем, сконкатенировать (или даже суммировать) в один вектор. Выбор варианта комбинации скрытых слоёв двух частей LSTM, скорее, относится к инженерным задачам, некоторым инженерным хакам, подбору эвристик. Так что сейчас мы не будем останавливаться на этом подробно.
[1] Peters M. E. et al. Deep contextualized word representations //arXiv preprint arXiv:1802.05365. – 2018.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.