>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:08Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:08 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Совсем недавно была предложена модель XLNet,[1] показывающая ещё лучшее качество, чем BERT. В основе этой модели лежит идея об объединении авторегрессионных моделей и моделей, основанных на восстановлении зашумлённых данных — таких как BERT. Вспомним, что у нас есть правило цепочки и мы можем раскручивать совместное распределение по-разному. Например, первый вариант соответствует цепочке C-B-A, а второй вариант соответствует цепочке A-C-B. Традиционные авторегрессионные модели раскручивают его всегда в одном порядке, который соответствует последовательному предсказанию очередного слова на основе слов, которые стояли в тексте слева: то есть слева-направо. BERT использует все входные данные — и слева, и справа. Но в итоге, как оказывается, работает не совсем с теми текстами, которые встречаются в жизни. Авторы XLNet предлагают использовать обычную авторегрессионную модель — такую, как OpenAI трансформер или ELMo, но теперь предсказывать одно слово за другим, но для каждого следующего обучающего примера использовать новый порядок факторизации. Эта картинка показывает, какие токены должны использоваться для предсказания токена с порядковым номером "3" при различных порядках факторизации. В первом случае токен "3" в цепочке идёт последним, то есть мы считаем, что он зависит от всех остальных слов плюс какое-то скрытое состояние. А во втором случае токен номер "3" стоит на втором месте, то есть перед ним идёт только 4-й токен, и поэтому мы не используем остальные токены для предсказания этого 3-го токена. XLNet основан на трансформере. Это позволяет очень удобно всё сделать за счёт передачи масок в механизм внимания. Это, на сегодняшний день, самая мощная языковая модель.
[1] Yang Z. et al. Xlnet: Generalized autoregressive pretraining for language understanding //Advances in neural information processing systems. – 2019. – С. 5754-5764. (https://arxiv.org/abs/1906.08237)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.