Что еще почитать
Список ссылок на статьи про архитектуры, рассмотренные в лекции:
OpenAI Transformer: Improving Language Understanding by Generative Pre-Training
ELMO: Deep contextualized word representations
BERT: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Transformer-XL: Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
GPT-2: Language Models are Unsupervised Multitask Learners
Серия статей от Jay Alammar (отличные посты с очень понятными картинками):
Illustrated Transformer
Illustrated BERT (материалы отсюда были использованы в лекции)
Illustrated GPT-2
Еще немного блог-постов:
ELMO от AllenNLP
Transformer-XL от Google AI
Простая статья на Medium про Transformer-XL
Ссылки на код моделей:
OpenAI Transformer
ELMO (Tensorflow)
BERT (Tensorflow)
Transformer-XL
GPT-2

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.