Отметьте основные недостатки линейных моделей для классификации текстов, принимающих на вход разреженные вещественные вектора, извлечённые из документов через подсчёт отдельных токенов: бинарные вектора (one-hot) или TF-IDF.
Выберите один или несколько вариантов ответа.

больший, по сравнению с моделями, работающими с 2-граммами токенов, размер признакового пространства
высокая, по сравнению с нейросетями, вычислительная сложность
невозможно учитывать структуру фраз
нужна гигантская размеченная обучающая выборка
предположение о независимости словоупотреблений
чувствительность к шуму (к опечаткам, случайным словам, редким метафорам)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.