Какие две проблемы есть у стандартного Трансформера, которые можно решить с помощью Transformer-XL?

Отсутствие возможности распараллелить расчеты внутри self-attention модуля
Отсутствие учета взаимного расположения токенов (не используется positional encoding)
Работа с контекстом только фиксированной длины
Фрагментация контекста без учета границ предложений (сильное влияние на короткие предложения)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.