Какие две проблемы есть у стандартного Трансформера, которые можно решить с помощью Transformer-XL?
- Отсутствие возможности распараллелить расчеты внутри self-attention модуля
- Отсутствие учета взаимного расположения токенов (не используется positional encoding)
- Работа с контекстом только фиксированной длины
- Фрагментация контекста без учета границ предложений (сильное влияние на короткие предложения)
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.