>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:47Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:47 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Многие модели дистрибутивной семантики работают по следующему алгоритму: сначала такая матрица всё-таки строится. Благодаря её разреженности, мы можем, в определённых случаях, даже уместить её в память, однако есть итерационные методы, которые не требуют хранения этой матрицы в памяти целиком в течение всего процесса обучения. Затем мы применяем сглаживание, чтобы значения для частотных слов не выбивались так сильно, а затем сжимаем эту матрицу, потому что она слишком большая — мы не хотим с ней работать. Сжать матрицу, чаще всего, означает — разложить её на произведение двух матриц меньшего ранга или факторизовать. Ранг полученных матриц будет не выше вот этой внутренней размерности. Если мы возьмём эти две матрицы и перемножим, мы должны получить что-то, похожее на исходную матрицу. Да, мы потеряем информацию (как же без этого), но, во-первых, потеряем не очень много, а во-вторых приобретём крайне практичный инструмент. Далее, в качестве таблица эмбеддингов мы можем использовать только одну из полученных матриц, а вторую, например, выкинуть. Сглаживание нам нужно, чтобы привести распределение элементов матрицы X к менее скошенному виду и уменьшить диапазон значений. В результате сглаживания уменьшается негативное влияние частотных слов. Пример сглаживающий функции — поэлементное логарифмирование. В результате, от абсолютных значений счётчиков мы переходим к их порядкам. Другой способ перевзвесить элементы матрицы — посчитать точечную взаимную информацию (мы уже говорили о ней в лекции про TF-IDF). Как же найти эти матрицы меньшей размерности? Так как все числа в матрице "x" — неотрицательные (это просто счётчики), мы можем применить методы из области неотрицательного матричного разложения. Мы не будем подробно останавливаться на этих методах в лекции. Вместо этого мы поговорим побольше о подходах, которое по духу ближе к нейросетям. Некоторые такие подходы основаны на методах безусловной оптимизации, когда мы подбираем значения наших матриц так, чтобы ошибка восстановления была минимальна. Например, мы можем использовать среднеквадратичную ошибку восстановления. Некоторые популярные подходы, которые также близки по духу к нейросетям, основаны на моделировании распределения вероятности встретить некоторое слово в контексте другого слова. Как правило, они также опираются на безусловную оптимизацию и метод наибольшего правдоподобия. Классика, сингулярное разложение — позволяет представить любую матрицу в виде произведения трёх матриц: двух ортогональных и одной диагональной. При этом, фактически, первая из этих матриц будет соответствовать таблице эмбеддингов, которую мы ищем. Существуют и другие методы — например, основанные на вероятностных моделях со скрытыми переменными. В этой лекции мы подробнее остановимся на вот этих двух подходах: регрессии и классификации, которые работают через градиентный спуск.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.