Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:33Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:33 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Ну хорошо. Логичный следующий шаг — это исправить самый главный недостаток бинарного вектора — кодировать не нулями и единичками, а как-то взвесить. Самый простой источник для взвешивания — это частотность слова, причём для каждого слова мы можем посчитать не только частоту его использования в одном документе, но и частоту его использования в корпусе в целом, а потом их как-то скомбинировать (например, с помощью формулы TF-IDF — мы поговорим о ней подробнее чуть позже). Итак, это по-прежнему достаточно простая модель. Если перед вами стоит задача тематической классификации длинных текстов, то этот подход очень хорошо будет работать и вполне возможно, что вы не сможете улучшить качество классификации, используя сложные методы (например, нейросети). По-прежнему мы сохраняем основные преимущества предыдущего подхода, то есть линейную разделимость данных, а также мы можем играться с весами, искусственно завысив веса для каких-то слов, или занизив — таким образом, закладывая в модель наши знания о том, что должно быть важно для принятия решения, а что — нет. Как всегда, у метода есть и свои недостатки. TF-IDF чувствителен к опечаткам в обучающей выборке и другим редким словам, которые, тем не менее, достаточно частотные, чтобы не быть отфильтрованными. Остальные недостатки предыдущего подхода, пока что, сохраняются — это предположение о независимости словоупотреблений и слишком большая размерность вектора.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.