>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 4:07Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -4:07 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
GPT-2 (как следует из названия) — преемник сети под названием GPT. Модель GPT была создана сотрудниками OpenAI и она заимствует некоторые идеи из предыдущий их (достаточно популярной) работы под названием "Sentiment Neuron".[1] Модель GPT-2 была обучена на уже знакомой вам задаче языкового моделирования. Модель просто училась предсказывать следующее слово. Не было никаких двунаправленных сеток, не было никаких масок. То есть, модель просто предсказывает следующее слово, имея контекст. Но, при этом, она училась просто на огромнейшем датасете размером около 40 гигабайт (то есть, 40 Гб интернет-страниц, интернет-текста). И эта модель работает настолько хорошо, что она вызвала достаточно большой резонанс в сообществе. Выдвигались гипотезы, что с помощью такого мощного инструмента можно будет генерировать, например, фейковые новости или заполнять интернет некачественным контентом, генерировать спам, эмулировать присутствие человека в онлайн переписке — что угодно ещё, любая незаконная деятельность. Эти мысли пошли, собственно, от самих разработчиков GPT-2, от работников OpenAI, и они выразили свои опасения по поводу вредоносных приложений технологии, и поэтому, сначала, отказались релизить полную версию модели. Вместо этого выпустили вариант GPT-2 с меньшим количеством весов, но, при этом, опубликовали статью, выложили веса, выложили туториалы по тому, как нужно использовать модель. Так почему же эта модель так хороша? Давайте немного посмотрим на цифры. Полный вариант модели содержит полтора миллиарда весов и обучалась модель на датасете под названием "WebText".[2] WebText состоит из восьми миллионов веб-страниц, и данные в этой выборке очень и очень разнообразные. Собственно, это одна из причин — почему с помощью GPT-2 удаётся добиться state-of-the-art результатов при решении многих задач. Модель может выучить принципы работы вопросно-ответных систем или машинного перевода, или систем для суммаризации текстов прямо из сырых текстов, пока она учится решать задачу языкового моделирования на сырых данных. То есть, иногда модель может работать достаточно неплохо даже без файнтюнинга. Тем не менее, в статье про GPT-2 были показаны хорошие результаты для zero-shot learning[4] только для одной задачи из восьми. Для остальных задач результаты работы модели без дообучения, хоть и не ужасные, но всё ещё далеки от идеальных. Задача, на которой zero-shot learning[4] для GPT-2 всё-таки сработал — это задача понимания прочитанного текста (или "reading comprehension[3]"). Датасет для этой задачи выглядел следующим образом — он состоял из пар "документ и диалог про этот документ". Документы относились к семи разным доменам и сетке нужно было научиться отвечать на вопросы по этому документу. Тем не менее, было отмечено, что, хоть GPT-2 и показал отличные результаты, он часто выучивал достаточно простые эвристики. Например, отвечать на вопрос "кто?" единственным встретившимся в тексте именем собственным. Теперь давайте посмотрим на примеры того, как хорошо работает GPT-2 после небольшого дообучения. Примеры на этом слайде я взяла с сайта OpenAI и там представлены несколько задач, на которых GPT-2 работает очень и очень хорошо. Здесь вы видите два вопроса. На первый сеть отвечает правильно, на второй — неправильно. Но, при этом, можете отметить, что во втором вопросе сеть всё-таки поняла что нужно ответить названием штата и смогла это сделать, хотя и назвала неправильный штат. Другой пример — здесь нужно продолжить несколько предложений наиболее логичным словом. И здесь сеть тоже справляется не идеально, но, при этом, она выдаёт правильный по домену ответ, то есть нужно было ответить каким-то словом, связанным с едой, и эту взаимосвязь сеть вполне смогла угадать. Следующий пример достаточно стандартный — это машинный перевод. И с этой задачей сеть GPT-2 справляется вполне хорошо.
[1] https://openai.com/blog/unsupervised-sentiment-neuron/
[2] https://github.com/eukaryote31/openwebtext
[3] https://paperswithcode.com/task/reading-comprehension
[4] https://paperswithcode.com/task/zero-shot-learning

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.