Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:53Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:53 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Итак, давайте теперь скажем пару слов о проблеме низкого разнообразия. Низкое разнообразие — это когда в разных ситуациях генерируется один и тот же текст. Есть множество гипотез касательно того, почему это может происходить. В этой лекции мы остановимся на двух вариантах. Первый — это слабая обусловленность на вход, то есть связь между энкодером и декодером — слабая. Если используется механизм внимания, то считается, что эта проблема решается (более-менее). Вторая гипотеза связана с чрезмерной уверенностью декодера (английский термин: "over-confidence").[1] Что значит, что модель очень уверена? Это значит что, когда она предсказывает очередное распределение вероятностей, вероятности токенов либо близки к нулю, либо близки к единице, промежуточные значения редки. Это значит, что распределение, получаемое на очередном шаге, очень контрастно. Это приводит к тому, что когда в ходе лучевого поиска мы пытаемся расширить очередное частичное решение с помощью какого-то токена, и этот токен получает очень низкое правдоподобие (по мнению модели), то мы вынуждены отбросить всё это частичное решение, потому что его оценка качества домножается на число близкое к нулю и очень сильно падает. Один возможный способ борьбы с чрезмерной уверенностью — это замена функции потерь. Изначально мы использовали категориальную кросс-энтропию. Её можно записать в виде суммы, каждый элемент суммы — это произведение индикаторной функции (которая равна единице тогда, когда k совпадает с номером истинного токена, который должен получиться на этом шаге согласно обучающей выборке, и нулю во всех остальных случаях) и логарифма вероятности. А вероятность оценивается с помощью нашей нейросети, то есть это некоторое P(x). Первый подход — это "label smoothing"[2], то есть мы заменяем эту жёсткую индикаторную функцию, которая может принимать только значения 0 или 1, на мягкую индикаторную функцию. Авторы этого подхода предлагают использовать функцию следующего вида. Для "правильного" токена предлагается использовать вес не "единичка", а 1−β1 - \beta1−β (β=0.1\beta = 0.1β=0.1, например), а для всех остальных токенов — брать не нулевой вес, а априорную вероятность встретить этот токен в тексте. То есть, относительную частоту этого токена в обучающей выборке. Таким образом мы, как бы, сообщаем модели информацию (априорную) об обучающей выборке. Мы говорим, какие слова априорно должны встречаться с большей вероятностью, чаще, а какие — реже. И мы не даём ей стать чрезмерно уверенной, то есть выдавать либо единицу, либо ноль. Похожего эффекта можно добиться и другим из способов — например, добавив к изначальной функции потерь (к кросс-энтропии) вот такую добавку (называется "энтропийная регуляризация"). Энтропия максимальна, когда распределение равномерное, а минимальна — когда распределение вырождено.
[1] Deep neural networks are easily fooled: High confidence predictions for unrecognizable images
[2] Müller R., Kornblith S., Hinton G. E. When does label smoothing help? //Advances in Neural Information Processing Systems. – 2019. – С. 4696-4705.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.