Отметьте истинные утверждения про архитектуру Transformer и механизм self-attention.
- Transformer - это несколько слоёв self-attention вместе с нелинейными преобразованиями между ними
- В рамках одного слоя self-attention все элементы последовательности можно обрабатывать параллельно
- Зависимости большой длины учитываются за 1 слой self-attention
- Максимальная длина зависимостей, учитываемых одним слоем self-attention, растёт пропорционально размерности признакового пространства
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.