Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:38Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:38 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Вариантов механизмов внимания — огромное множество. Давайте рассмотрим несколько популярных. Во-первых, для получения результирующего вектора можно использовать не исходные вектора, а сначала их как-то преобразовать с помощью другой нейросети, и только потом уже агрегировать. При этом веса у нейросетей, отвечающих за получение значений и за оценку релевантности, отличаются. Это даёт нам ещё больше гибкости. Часто, задача поставлена так, что слова во входной последовательности не являются релевантными или не релевантными сами по себе — их релевантность оценивается относительно запроса, то есть в контексте конкретной потребности пользователя. Например, если мы сравниваем два текста, то вектор-запрос характеризует наш запрос (то есть то, что мы ищем), а матрица — текст-ответ (то есть, где мы ищем). Часто, в таких случаях релевантность оценивается простым скалярным произведением вектора запроса и векторов из входной матрицы. Это можно также записать как матричное произведение вектора на всю матрицу. Иначе говоря, чем ближе векторы входных слов к вектору запроса в смысле некоторой метрики (например, косинусной), тем более они значимы. Можно все выше приведённые варианты скомбинировать, чтобы получить ещё больше гибкости — в варианте на слайде и значения рассчитываются отдельно от ключей, и релевантность рассчитывается с учётом внешнего запроса. По сути, это означает, что механизм вычисления релевантности может быть нелинейным — когда вначале исходные вектора преобразуются, а затем уже сравниваются с запросом. А ещё можно не брать запрос извне, а вычислить самостоятельно — например, с помощью глобального пулинга с выбором максимума. Тогда оценка значимости каждого слова будет обусловлена на весь текст. Механизмы внимания, использующие в качестве ключей и значений элементы одного и того же текста ещё называются механизмами "самовнимания" (или "self-attention"). Такое внимание уже, в принципе, может заменить рекуррентную нейросеть в ряде задач.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.