Допустим, мы выбрали порядок факторизации 3 -> 1 -> 2 для предложения "мама мыла раму". Это означает, что будут формироваться следующие обучающие примеры (в формате "Вход -> Эталонный выход", в скобках после слова стоит его исходная позиция в тексте):
-> раму(3)
раму(3) -> мама(1)
раму(3) мама(1) -> мыла(2)
Так как порядок слов в исходном предложении очень важен для понимания его смысла, необходимо добавлять к эмбеддингу слов эмбеддинг его исходной позиции в тексте. Это называется позиционным кодированием (подробнее - в лекции и семинаре про трансформер).
Отсортируйте слова предложения "на дворе трава на траве дрова" для порядка факторизации 1 -> 3 -> 4 -> 2 -> 6 -> 5 так, чтобы сверху от каждого слова были те слова, на основании которых оно должно быть предсказано (то есть вход модели).
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.