>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:39Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:39 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Ну, что ж, это был большой семинар, который был посвящён сразу нескольким темам — а именно, моделированию языка, byte pair encoding (то есть какая-то токенизация универсальная, современная, которая позволяет выбирать между длиной последовательностей и размером словаря). Мы попробовали применить такую токенизацию путём использования библиотеки "YouTokenToMe". Затем мы собрали и обучили языковую модель, используя реализацию трансформера из стандартной библиотеки pytorch, мы попробовали погенерировать тексты с помощью "полностью жадного" алгоритма и с помощью "лучевого поиска". А затем мы рассмотрели — а как же можно руками, самостоятельно, не используя готовой библиотеки, реализовать механизм внимания — используя только базовые операции из pytorch. И, таким образом, мы собрали свой энкодер для трансформера, реализовав механизм внимания с несколькими головами, реализовав "self attention", реализовав отдельный слой трансформера и собрав это всё в encoder. А также мы обучили нашу реализацию и увидели, что она, в принципе, работает примерно так же, как и стандартная реализация — значит, что, кажется, мы не ошиблись. А ещё, напоследок, мы заглянули внутрь обученной модели и посмотрели, как между собой связываются входные и выходные позиции на разных уровнях и для разных голов. Спасибо за внимание!

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.