Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:00Загрузка: 0%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:00 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Как правило, свёрточные нейросети хорошо обучаются и сходятся. Подробнее об этой проблеме мы поговорим в лекции про рекуррентные нейросети. Такие архитектуры хорошо подходят для распознавания коротких локальных особенностей, например — словосочетаний или коротких фраз. Заставить свёрточную нейросеть обрабатывать длинные предложения и учитывать широкий контекст достаточно сложно — для этого необходимо сделать очень глубокую сеть, в которой неминуемо будет много параметров, что сильно усложнит процесс обучения. Чтобы расширить пятно восприятия, можно применять "разреженные свёртки" (английский термин — "dilated convolutions"). Идея в том, что ядро свёртки применяется не к непрерывному фрагменту сигнала, а к фрагменту, из которого удалена часть элементов (как правило, удаляют элементы с чётными номерами). Таким образом почти в два раза увеличивается рецептивное поле, а количество параметров остаётся прежним. Если применять разреженные свёртки на первом слое, мы, фактически, будем игнорировать каждое второе слово, это совсем не то что мы хотим. Поэтому на первом слое применяют обычные, не прореженные свёртки, а затем на каждом новом уровне увеличивают прореживания в два раза. Таким образом, мы можем сэкономить количество параметров, увеличив рецептивное поле. Как вы могли заметить, для вычисления свёртки нам требуются элементы не только слева, но и справа. А что, если мы решаем задачу генерации текста, выдавая слово за словом, и справа от текущей позиции ничего нет? Такой подход, кстати, называется авторегрессией.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.