У Вас есть коллекция текстов и Вам нужно написать решающее правило, чтобы выбрать из них те, в которых идёт речь про кошек.
Выберите вариант решения задачи, наиболее экономный с точки зрения количества ручной работы и при этом надёжный.
Подразумевайте, что у Вас имеется реализация лемматизации и стемминга для русского языка.
В настоящем задании приведена крайне упрощённая задача классификации текста. Постарайтесь поразмышлять, как разные этапы лингвистического анализа могут упростить нам, как разработчикам, жизнь, вне зависимости от того, используем мы нейросети или нет.

  • Взять исходный текст как есть и сформулировать правило как "Текст про кошек, если в тексте встречается одна из следующих подстрок: кошка, кошки, кошке, кошкой, ... кошками, ..."
  • Разбить текст на токены, применить лемматизацию и сформулировать правило как "Текст про кошек, если после лемматизации в тексте есть токен 'кошка'."
  • Разбить текст на токены, применить стемминг и сформулировать правило как "Текст про кошек, если в тексте после стемминга есть токен 'кош'."
Для просмотра статистики ответов нужно залогиниться.