Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:49Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:49 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Всем привет! В этом модуле мы наконец-то перейдём к настоящим, современным нейросетям, интересным и глубоким. Однако перед тем, как начать говорить об основных архитектурах, нам нужно построить широкую картину происходящего, чтобы затем добавлять в эту картину больше деталей. Роль этой картины у нас будет выполнять общий алгоритм работы с текстами с помощью нейросетей. Сначала мы очищаем текст от мусора (разметки, оформления) — того, что считаем нерелевантным в нашей задаче. Затем мы разбиваем текст на базовые элементы. Чаще всего нейросети работают на основе отдельных символов или целых токенов. Результат этого этапа — это список объектов, очищенных и нормализованных. Затем мы пересчитываем все уникальные элементы в корпусе и сопоставляем каждому элементу некоторый идентификатор. Идентификаторы глобальные и, для всех текстов, один и тот же символ (или токен) будет получать один и тот же идентификатор. Можно перед назначением идентификаторов сортировать элементы по алфавиту или по частоте (как удобнее, это не принципиально). Затем мы получаем отображение из символов или токенов в числа и применяем его к предобработанным текстам. В результате мы получим такие же списки, в которых каждый элемент заменён на его глобальный идентификатор. На этом предобработка текста для нейросетей заканчивается и начинаются сами нейросети.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.