В качестве домашнего задания мы предлагаем Вам поэкспериментировать с кодом этого семинара, чтобы попробовать улучшить качество на отложенной выборке. Что можно попробовать сделать:
изменить способ взвешивания признаков
реализовать взвешивание признаков с помощью точечной взаимной информации (PMI)
изменить способ стандартизации данных (см. начиная с 4:25 на шаге 6), например, запоминая сдвиг и масштаб с обучающей выборки и применяя эти параметры для стандартизации тестовой выборки; и/или стандартизируя каждый столбец по отдельности
добавить регуляризацию
извлекать признаки не через токены, а через N-граммы
добавить стемминг или простую лемматизацию
изменить архитектуру нейросети, например, сделав два слоя вместо одного
проанализировать, как сильно падает качество классификации с уменьшением размера словаря (для фильтрации словаря можно использовать разные эвристики, например, тот же PMI)
Также мы предлагаем Вам не ограничиваться этим списком, а придумать свои способы улучшить качество классификации.
Успехов! :)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.