Какие две проблемы есть у стандартного Трансформера, которые можно решить с помощью Transformer-XL?

  • Отсутствие возможности распараллелить расчеты внутри self-attention модуля
  • Отсутствие учета взаимного расположения токенов (не используется positional encoding)
  • Работа с контекстом только фиксированной длины
  • Фрагментация контекста без учета границ предложений (сильное влияние на короткие предложения)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.