Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:38Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:38 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Во всех архитектурах самый первый этап — это отображение номеров элементов в вектора. Для этого в нейросети хранится таблица, в которой каждая строчка соответствует какому-то элементу словаря — соответственно, в ней столько же строчек, сколько в нашем словаре, то есть столько же, сколько уникальных элементов мы насчитали во время предобработки текста. Такая таблица называется "таблицей представлений" или "таблицей эмбеддингов". Русскоязычные исследователи пока что не пришли к единому мнению — какой русскоязычный термин использовать для обозначения векторных представлений, поэтому мы будем использовать либо "векторное представление", либо "эмбеддинг". Так вот преобразование списка идентификаторов элементов в вектора выполняется путём выбора соответствующих строк из этой таблицы. Таким образом, исходный текст преобразуется в матрицу, в которой количество строк равно длине текста, а количество столбцов — размеру эмбеддинга. Отлично! Теперь у нас есть универсальный математический объект — тензор. Его мы будем крутить-вертеть в нашей нейросети, чтобы получить что-нибудь полезное, то есть решить нашу конечную задачу. Как мы уже говорили, этот тензор может принимать форму матрицы. Следующий шаг — учёт локального контекста, то есть мы хотим привнести в вектор для каждого слова информацию о том, какие слова идут перед ним или после него. Это контекст. В результате такого шага мы получим тензор другой формы — например, количество строк у нас может уменьшится, а размерность эмбеддинга — увеличиться. Локальный контекст мы поучитывали, накрутили нелинейных преобразований, всё круто, пора бы и конечную задачу порешать. А для этого мы хотим учитывать не только локальный контекст, но и глобальный. Часто для решения конечной задачи (например, классификации или поиска) очень удобно получить не матрицу, которая зависит от длины текста, а один вектор фиксированной длины. Дальше с таким вектором можно делать уже что угодно: классифицировать, конкатенировать с другими, и так далее.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.