Отметьте основные недостатки линейных моделей для классификации текстов, принимающих на вход разреженные вещественные вектора, извлечённые из документов через подсчёт отдельных токенов: бинарные вектора (one-hot) или TF-IDF.
Выберите один или несколько вариантов ответа.

  • больший, по сравнению с моделями, работающими с 2-граммами токенов, размер признакового пространства
  • высокая, по сравнению с нейросетями, вычислительная сложность
  • невозможно учитывать структуру фраз
  • нужна гигантская размеченная обучающая выборка
  • предположение о независимости словоупотреблений
  • чувствительность к шуму (к опечаткам, случайным словам, редким метафорам)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.