Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:43Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:43 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Есть и другие способы взвешивания признаков по частоте — например, взаимная информация.[1,2,3] Она измеряется между двумя случайными событиями или реализациями двух случайных величин. Она характеризует, насколько сильнее мы будем ожидать первое событие, если перед этим пронаблюдаем второе[4] (по сравнению с нашими априорными ожиданиями). Эта фраза может звучать сложно, но суть достаточно проста. Рассмотрим вот эту формулу: в знаменателе содержится уровень наших априорных ожиданий о появлении события L, а в числителе — уровень ожидания после наблюдения события W. Все три варианта формул на слайде эквивалентны. Если возвращаться к текстам, то у нас есть два события. Первое — "L": "мы наблюдаем документ из класса L". Второе событие — "W": "мы видим в документе слово W". Все вероятности вычисляются по классическому определению вероятности, то есть как отношение количества положительных исходов к общему числу исходов. Взаимная информация — это тоже способ взвешивания и отбора категориальных признаков.[5] В первую очередь, он подходит для задач классификации. В задачах регрессии его тоже можно применять — например, дискретизировав целевое распределение, но это уже сложнее. Он требует наличия двух событий, что усложняет его применение в задачах обучения без учителя, хотя он используется для получения плотных векторных представлений слов.
[1] Точечная взаимная информация https://en.wikipedia.org/wiki/Pointwise_mutual_information
[2] Взаимная информация - мера связанности двух случайных величин - мат.ожидание PMI https://en.wikipedia.org/wiki/Mutual_information
[3] Применение PMI для представления смыслов слов (про это будут ещё лекции 3.2 и 3.3) Levy, Omer, and Yoav Goldberg. "Neural word embedding as implicit matrix factorization." Advances in neural information processing systems. 2014. https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf
[4] Маргинальное (частное, маржинальное) распределение вероятностей https://en.wikipedia.org/wiki/Marginal_distribution
[5] Ещё несколько способов взвешивания и отбора признаков https://scikit-learn.org/stable/modules/feature_selection.html

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.