Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:31Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:31 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Всем привет! Давайте немного поговорим о классике — о разреженных векторных моделях и о том, как их готовить. Такие модели ещё называют "методом мешка слов". Они хорошо работают, когда класс документа соответствует его тематике. Как правило, тематика документа хорошо описывается составом словаря, который используется в этом документе, а также частотами слов, а не тем, как именно они употребляются в документе, не структурой фраз. Тогда каждый документ описывается длинным вектором размерности порядка десятков или сотен тысяч элементов. Большая часть — нули. Для каждого слова в документе мы имеем какое-то вещественное число. Ранее мы уже выяснили, что модели должны работать лучше, когда веса слов отличаются — чем значимее слово, тем больше его вес. Однако, как именно считать эти веса? Давайте рассмотрим несколько вариантов и разберём их преимущества и недостатки. Простейший вариант — взвешивать слова по количеству их употреблений в документе.[1,2] Элементарно — здесь мы видим несколько наиболее частотных слов из статьи Википедии про машинное обучение. Веса слов — это просто целые числа. Естественно, данный подход имеет недостатки. Во-первых, вес слова зависит от длины документа. В длинных документах слова имеют больший вес, как будто бы они более значимы, но это не так. Во-вторых, самые частотные слова — это союзы, предлоги, местоимения... Они встречаются везде, но абсолютно неинформативны и редко бывают полезны для каких-либо задач классификации. Вот — мы видим три предлога и союза среди наиболее часто употребимых слов в статье про "машинное обучение". Давайте будем бороться с этими проблемами по порядку. Вначале отнормируем вектор документа на его длину. На слайде изображена формула для нормировки по L2-норме (или по евклидовой норме). Тогда веса слов будут зависеть от длины документа гораздо слабее, но они всё равно будут зависеть, так как с увеличением длины документа расширяется используемый словарный запас. Однако, по-прежнему, предлоги и союзы — это самые значимые слова. Нас это не совсем устраивает.
[1] Количество уникальных слов в документе - закон Ципфа https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%A5%D0%B8%D0%BF%D1%81%D0%B0
[2] Векторизация текстов через подсчёт количества словоупотреблений https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.