>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:52Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:52 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Итак, давайте попробуем разобраться в подходах к моделированию языка. Датасет состоит просто из текстов. Мы считаем, что эти тексты генерирует некоторая "случайная величина" с неизвестным многомерным распределением. Давайте вспомним про "правило цепочки" — то, как можно представить совместное распределение нескольких случайных величин в виде произведения условных распределений. Причём мы можем разворачивать эту цепочку в любую сторону, как нам удобно. Порядок, в котором записывается условные распределение, называется порядком факторизации (англоязычный термин factorization order). В зависимости от того, как мы раскручиваем эту цепочку, мы можем получить разные постановки задачи моделирования языка. Классическая и одна из самых популярных постановок — это авторегрессионные языковые модели, когда мы предсказываем слово за словом. В этом случае модель аппроксимирует такое вот условное распределение: вероятность следующего слова при наблюдении какого-то количества предыдущих слов. Вот так, двоеточием, мы будем сокращённо обозначать последовательности нескольких токенов с номерами, от значения первого индекса до второго. К этой группе относятся популярные модели — такие, как ELMo, OpenAI Transformer[1], XLNet — мы поговорим о них чуть позже. Другая постановка подразумевает отсутствие жёстко заданного порядка факторизации. Такие модели предсказывают слова в середине фрагмента текста по остальным словам. К таким моделям относиться word2vec, которую мы уже разбирали ранее в курсе, а также современные модели BERT и XLNet.
[1] Попробуйте пообщаться с трансформером: https://talktotransformer.com/ (лучше, на английском)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.