Отметьте основные недостатки линейных моделей для классификации текстов, принимающих на вход разреженные вещественные вектора, извлечённые из документов через подсчёт отдельных токенов: бинарные вектора (one-hot) или TF-IDF.
Выберите один или несколько вариантов ответа.
- больший, по сравнению с моделями, работающими с 2-граммами токенов, размер признакового пространства
- высокая, по сравнению с нейросетями, вычислительная сложность
- невозможно учитывать структуру фраз
- нужна гигантская размеченная обучающая выборка
- предположение о независимости словоупотреблений
- чувствительность к шуму (к опечаткам, случайным словам, редким метафорам)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.