>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:00Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:00 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Рассмотрим простейшую авторегрессионную модель — N-граммную модель. Мы хотим сделать алгоритм, который будет предсказывать очередное слово по известным предыдущим. Задача сложная, и мы упрощаем её, ограничивая длину истории некоторым числом N. Мы считаем, что слова, которые были ранее, чем за N слов от текущего, не влияют на распределение вероятностей текущего слова, то есть — решение о следующем слове мы принимаем только на основе последних N слов. Это ещё называют свойством "марковости N-го порядка". Если N равно единице, то мы получаем простейшую марковскую цепочку: на очередное слово влияет только одно лишь предыдущее слово. В классических N-граммных моделях вероятности хранятся в явном виде с помощью хэш-таблицы или префиксново дерева, а процесс обучения заключается в подсчёте частот и нормирующих коэффициентов, чтобы, затем, мы могли посчитать условную вероятность по вот такой вот формуле. Такие модели достаточно просты в реализации, быстро работают и долгое время ничего кроме них и не было. Но, естественно, есть ряд сложностей. Во-первых, при увеличении N, количество N-грамм соответствующей длины растёт в геометрической прогрессии — поэтому на практике редко используют N больше 3. В результате, модель получается большая и разреженная. Достаточно сложно полученные представления использовать как признаки в алгоритмах машинного обучения. В целом, ситуация аналогична классическим дистрибутивно-семантическим моделям, об этом мы уже говорили ранее. Другая проблема заключается в том, что если мы используем N-граммы слов, то мы не можем работать с неизвестными словами, значений для них просто нет в наших таблицах, у нас нет средства чтобы подобрать числа для похожих слов. Частично эта проблема решается переходом к работе на уровень символов. То есть, теперь T — это не слова, а отдельные символы, буковки. Но у такого подхода есть и обратная сторона — чтобы моделировать зависимости хотя бы на три слова назад, нам нужно работать с длинными N-граммами, где N равно 20. Например, если средняя длина слова равна 5...6, то N, при переходе с уровня слов на уровень символов, вырастает в шесть раз. А с ростом N, работать с такой моделью становится всё сложнее, всё дороже с вычислительной точки зрения. А ещё, такие модели ничего не знают про синтаксический анализ, про сложную многосвязную структуру текста. Всё, что они видят — это только сколько-то слов слева от текущего. Другими словами они не особо-то выразительны.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.