Отметьте верные утверждения про TF-IDF и закон Ципфа.
Под значимостью в вариантах ответа понимается потенциальная полезность для задач тематической классификации - баланс частотности и специфичности.
- Больший TF, как правило, соответствует общеупотребимым словам.
- Если слово часто встречается в документе, то оно гарантированно часто встречается и во всей коллекции (не считая предлогов, союзов и т.п.).
- Слово считается значимым, когда оно одновременно редкое в документе и частотное в коллекции.
- Слово считается значимым, когда оно одновременно частотное в документе и частотное в коллекции.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.