>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:51Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:51 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
До настоящего момента мы пользовались только собственной реализацией word2vec. Однако хорошие люди постарались за нас и уже сделали просто супер библиотеку, в которой реализовано много разных видов эмбеддингов, не только word2vec, и не только negative sampling — библиотека называется gensim. Давайте применим её к тому же самому корпусу про рецепты и посмотрим, что она выучила. Найдём слова, похожие по смыслу на слово "сыр". Видим, что список также содержит, в основном, сорта сыра, но уже в другом порядке, и оценки сходства тоже отличаются от тех, которые мы получили с помощью нашей модели. Давайте попробуем ввести другие слова-запросы. Список слов, похожих на слово "курица", тоже отличается — например, здесь есть не только виды мяса, но и способы приготовления. Давайте также нарисуем вектора слов, полученных с помощью gensim, на плоскости. Мы видим, что слова на плоскости расположены вообще по-другому — не так, как это было в случае с нашей моделью, но, по-прежнему, выделяются кластера. Например, есть большой кластер с напитками, и да — здесь есть не только "вино", но — "пиво", "какао" и "салат". Но, в целом, кластер — про напитки и какие-то ещё продукты, которые связаны с напитками — например пирожные. Второй кластер, скорее, про мясные и рыбные продукты — "рыба", "лосось", "сосиски", "стейки", и так далее. Казалось бы — здорово, авторы gensim реализовали за нас хорошие алгоритмы, эти алгоритмы быстрые и ими удобно пользоваться и они работают... Казалось бы, что ещё надо? Но обучение — оно тоже требует ресурсов. И, самое главное — обучение требует сбора большой обучающей выборки и очистки этой выборки, это очень трудоёмкий процесс. Хорошая новость заключается в том, что в интернете уже есть много обученных моделей — таблиц эмбеддингов, они получены не только с помощью word2vec, но и с помощью других алгоритмов — GloVe, FastText, и так далее, и авторы gensim любезно встроили в свою библиотеку функции для того, чтобы можно было удобно скачивать готовые эмбеддинги и просто их использовать, ничего у себя не обучая. Давайте попробуем загрузить модельку. Загрузка модельки может потребовать некоторого времени и (осторожно) — она достаточно большая, больше полутора гигабайт. Также на экране есть список предобученных эмбеддингов, которые можно вот так просто скачать с помощью gensim. Число в названии эмбеддинга соответствует размерности вектора.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.