>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:00Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:00 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Механизм внутреннего внимания также предоставляет очень важную возможность, а именно — возможность управления зависимостями. Например — допустим, что мы делаем модель для генерации текста и хотим предсказывать следующее слово на основе предыдущих и чтобы остальные слова, которые есть на входе сети, вообще никак не учитывались. Например, если мы генерируем третье слово, то мы хотим чтобы учитывались только первое и второе. В механизме внимания для работы с подобными ситуациями используется маски. Маска — это матрица такой же размерности, что и маска "сходство токенов", то есть — квадратная, со стороной, равной длине входной последовательности. На i-ой/j-ой позиции в этой матрице ставится единичка, если для j-го токена надо учитывать i-ый токен, и нолик — если не нужно учитывать. Маска применяется перед нормализацией матрицы сходства — то есть, перед софтмаксом. Маскирование заключается в том, что мы затираем некоторые значения матрицы сходства и ставим в эти места "минус бесконечность". Применение софтмакса к матрице с "минус бесконечностями" приводит к тому, что на их месте появляются нули. Механизм маскирования делает архитектуру с внутренним вниманием очень гибкой и практически универсальной. Маски можно менять динамически, для каждого слова можно формировать маску независимо от других, и так далее. Этим свойством трансформера пользуются авторы некоторых крутых архитектур, которые сейчас показывают самое лучшее качество решения многих задач.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.