Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:11Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:11 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Авторы трансформера это заметили и предложили модифицировать механизм внимания — а именно, предложили ввести несколько "голов".[1] Головы — это точно такие же механизмы внутреннего внимания, но в разных головах для получения проекций используются разные веса. И нормирование выполняется независимо в каждой голове. Это позволяет строить результирующий вектор признаков, учитывая сразу множество аспектов, а не только один (как если бы мы использовали обычный механизм внутреннего внимания с одной "головой"). Каждая "голова" работает с пространством признаков меньшего размера. Потом, на выходе, они конкатенируются — так, что размер выходной матрицы остаётся прежним — таким же, каким и был на входе. Именно такой вариант внутреннего внимания и используется в трансформере (и в большинстве современных архитектур).
[1] Attention and its Different Forms (https://towardsdatascience.com/attention-and-its-different-forms-7fc3674d14dc)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.