В качестве домашнего задания мы предлагаем Вам поэкспериментировать с кодом этого семинара, чтобы лучше понять свойства эмбеддингов и попробовать улучшить их качество. Что можно попробовать сделать:
поиграться с параметрами - количеством отрицательных слов, размером батча, скоростью обучения, размером окна
убрать разбиение текстов на предложения и увеличить окно
изменить токенизацию, например, разобравшись с библиотекой SpaCy и подключив лемматизацию и POS-теггинг, чтобы строить эмбеддинги не для словоформ, а для лемм (например, chicked_NOUN)
реализовать FastText и сравнить, как отличаются списки похожих документов, получаемых с помощью Word2Vec и FastText
усложнить алгоритм оценки вероятности совместной встречаемости слов, например, заменив скалярное произведение на нейросеть с парой слоёв
Также мы предлагаем Вам не ограничиваться этим списком, а придумать свои способы заставить Word2Vec выучить что-то интересное и полезное.
Успехов! :)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.