Отметьте верные утверждения про TF-IDF и закон Ципфа.
Под значимостью в вариантах ответа понимается потенциальная полезность для задач тематической классификации - баланс частотности и специфичности.
- Больший IDF, как правило, соответствует специальной лексике и словам с опечатками.
- Больший TF, как правило, соответствует глобально более значимым словам.
- Больший TF, как правило, соответствует общеупотребимым словам.
- Слово считается значимым, когда оно одновременно частотное в документе и не очень частотное в коллекции.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.