Отметьте истинные утверждения про архитектуру Transformer и механизм self-attention.

  • Transformer - это несколько слоёв self-attention вместе с нелинейными преобразованиями между ними
  • В рамках одного слоя self-attention все элементы последовательности можно обрабатывать параллельно
  • Зависимости большой длины учитываются за 1 слой self-attention
  • Максимальная длина зависимостей, учитываемых одним слоем self-attention, растёт пропорционально размерности признакового пространства

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.