Отметьте истинные утверждения про архитектуру Transformer и механизм self-attention.

Transformer - это несколько слоёв self-attention вместе с нелинейными преобразованиями между ними
В рамках одного слоя self-attention все элементы последовательности можно обрабатывать параллельно
Зависимости большой длины учитываются за 1 слой self-attention
Максимальная длина зависимостей, учитываемых одним слоем self-attention, растёт пропорционально размерности признакового пространства

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.