Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:58Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:58 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Следующая модель — word2vec. Она была предложена Томашем Миколавом в 2013 году[1] и привела к настоящему взрыву интереса к дистрибутивной семантике. В основе подхода — моделирование условного распределения вероятностей соседних слов. Важная особенность и отличие от предыдущей модели — в том что, word2vec работает с локальным контекстом, то есть с окном небольшой длины. Например если ширина равна трём, то мы будем идти по тексту и поочереди выбирать вот такие окна, то есть мы поочереди будем каждое слово ставить в центр окна, и рассматривать его контекст. А также, на каждом шаге, для каждого окна, мы обновляем параметры модели, чтобы повысить правдоподобие того, что мы сейчас наблюдаем. Томаш предложил два варианта модели. Первый называется Skip Gram — он моделирует распределение соседей при условии центрального слова. Второй вариант — наоборот, моделирует распределение центрального слова при условии известных соседей. В модели для каждого слова хранятся и настраиваются два вектора. Первый (мы будем называть его центральным) мы будем использовать, когда слово находится в центре окна. Второй — когда слово является контекстом, то есть — не в центре. Параметры этой модели настраиваются градиентным спуском. По сути, процесс обучения word2vec идентичен обучению обычной нейросети, когда подаются обучающие примеры (в данном случае окна) один за другим, и после наблюдений небольшой пачки примеров веса модели обновляются.
[1] Mikolov T. et al. Efficient estimation of word representations in vector space //arXiv preprint arXiv:1301.3781. – 2013. (https://arxiv.org/abs/1301.3781)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.