После токенизации всех документов в корпусе строится словарь, содержащий для каждого уникального токена количество его употреблений в корпусе. Затем из этого словаря удаляются самые редкие слова.
Как Вы думаете, зачем это может быть нужно?
Выберите один или несколько вариантов ответа.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.