Отметьте верные утверждения про TF-IDF и закон Ципфа.
Под значимостью в вариантах ответа понимается потенциальная полезность для задач тематической классификации - баланс частотности и специфичности.

  • Больший TF, как правило, соответствует общеупотребимым словам.
  • Если слово часто встречается в документе, то оно гарантированно часто встречается и во всей коллекции (не считая предлогов, союзов и т.п.).
  • Слово считается значимым, когда оно одновременно редкое в документе и частотное в коллекции.
  • Слово считается значимым, когда оно одновременно частотное в документе и частотное в коллекции.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.