Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:30Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:30 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Отлично! Со взвешиванием разобрались. Но мы по-прежнему в векторе считаем просто слова. Иногда выгоднее считать не слова, а N-граммы, то есть последовательности подряд идущих символов или токенов. N-граммы бывают символьными, а бывают пословными. В символьных N-граммах мы просто берём 3 (или сколько-то) подряд идущих символа (как, например, здесь). А в пословных N-граммах, соответственно, то же самое, только со словами. N-граммы — это достаточно популярный трюк, который используется много где, в том числе с TF-IDF, а также в современных методах построения плотных векторных представлений и дистрибутивной семантики — например, в модели FastText (речь о FastText пойдёт чуть позже в этом курсе). Итак, использование N-грамм не сильно усложняет модель. Кроме того, мы получаем какую-то устойчивость к опечаткам, а также словоизменению, то есть мы можем до какой-то степени обойтись без исправления опечаток, а также без сложных алгоритмов нормализации текста — например, лемматизации и морфологического анализа. Пословные N-граммы — более специфичны по сравнению с отдельными словами, то есть они встречаются реже, но при этом (если они встречаются) являются более сильным фактором. И поэтому они могут лучше описывать особенности тематики текстов. Как всегда, недостатки подхода следуют из его преимуществ. Размерность пространства растёт очень быстро, а вектора получаются очень разреженными. Чем больше N, тем реже соответствующая N-грамма встречается. Ну, и опять, мы никак не избавились от недостатков, присущих предыдущим векторным моделям. Хорошая новость том, что вектора можно сжать. Например, если у нас есть гигантская матрица, описывающая встречаемость слов в документах (например, вот эта), то мы её можем факторизовать, то есть представить в виде произведения двух матриц меньшей размерности, меньшего ранга. Например, первая матрица будет представлять документы в некотором латентном пространстве, а вторая матрица будет представлять слова в том же самом пространстве. Кроме матричного разложения используются предиктивные модели дистрибутивной семантики[1], которые обучаются предсказывать соседние слова (в текстах) для данного слова.
[1] Дистрибутивно-семантические модели для русского языка: https://rusvectores.org/ru/

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.