Предположение о независимости словоупотреблений - упрощение, которое мы допускаем, когда строим матрицы признаков по методу бинарных векторов или TF-IDF. Оно проявляется в том, что когда мы заполняем значение для некоторого слова (например, полёт), мы никак не меняем значения для других, сильно связанных с ним слов (например, синонимов - переезд, путешествие, поездка и т.п.).
На языке теории вероятностей предположение о независимости можно описать формулами
\(P(w_1 | w_2, d) = P(w_1 | d)\)
\(P(w_1, w_2 | d) = P(w_1 | d) P(w_2 | d)\),
где \(P(w | d)\) - вероятность встретить слово w в документе d.
Как Вы думаете, почему это может быть плохо?
Выберите один или несколько вариантов ответа.

  • Модель может хуже работать на новых текстах, содержащих синонимы слов из обучающей выборки, и не содержащих сами эти слова
  • Модель с таким предположением вообще не работает
  • Такая модель более чувствительна к качеству обучающей выборки по сравнению с моделью, которая учитывает отношения между словами
  • Это приводит к чрезмерному увеличению размерности пространства признаков

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.