Общий алгоритм обучения FastText Skip Gram Negative Sampling выглядит следующим образом:
Очистить и токенизировать обучающую коллекцию документов
Построить словарь - подсчитать частоты всех целых токенов и N-грамм заданной длины (например, от 3 до 6 символов). При построении словаря раз в заданное число шагов прореживать словарь - удалить из словаря токены, набравшие с предыдущего прореживания меньше всего употреблений (или меньше заданного порога).
Проход по корпусу скользящим окном заданной ширины, для каждой позиции окна выполнять шаги 4-7.
Для текущего словоупотребления в центре окна выделить его N-граммы, содержащиеся в словаре (то есть только достаточно частотные N-граммы)
Вычислить вектор центрального токена, усреднив вектора целого токена (если он есть в словаре) и всех N-грамм, выделенных на шаге 4.
Выбрать случайным образом отрицательные слова (сделать negative sampling).
Обновить следущие вектора так, чтобы улучшить оценку правдоподобия:
N-грамм, участвовавших в получении вектора центрального токена,
контекстные вектора всех токенов в окне, кроме центрального,
контекстные вектора отрицательных слов.
Повторять шаги 3-7 заданное число раз или до сходимости.
Отметьте N-граммы, вектора которых будут обновляться при обучении FastText SkipGram каждый раз, когда в качестве центрального слова будет выступать слово "бутявка".
Внимание! FastText учитывает само центральное слово как n-грамму, только если оно достаточно частотное. В этом задании у нас такой статистики нет, поэтому само слово "бутявка" будем считать достаточно частотным.

  • бут
  • бутявка
  • вка
  • воч
  • кав
  • явка

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.