Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:32Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:32 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Всем привет! Сейчас мы поговорим о задачах извлечения признаков.[1] Центральное положение занимают методы, основанные на машинном обучении (так уж сейчас сложилось). Такие методы получают на вход специальные структуры данных — чаще всего это вектора или матрицы (тензоры). Иногда алгоритмы принимают на вход графы или деревья. Зачем рассматривать вообще задачу извлечения признаков отдельно от конечной задачи? На самом деле на это есть множество причин. Первая заключается в том, что значительная часть методов извлечения признаков не требует разметки. Следовательно, мы можем применить методы к большим неразмеченным корпусам, получить хорошие признаки, а потом уже работать с небольшой размеченной выборкой. С другой стороны, возможно, получится извлечь признаки один раз, а потом поверх них накручивать классификаторы для решения разных задач. А вообще бывает, что можно получить неплохое представление, не используя машинного обучения вообще. В этой лекции мы рассмотрим несколько самых популярных методов по мере их усложнения. Для каждого подхода мы выделим основные преимущества и недостатки. В первую очередь, рассмотрим разреженное векторное представление, популярное в классических подходах, а затем перейдём к более сложным нейросетевым и ядерным подходам. Это, в первую очередь — обзор, призванный расширить кругозор и дать правильную терминологию для дальнейшего самостоятельного изучения. Простейший метод — это двоичный вектор. Элементы вектора соответствуют отдельным словам. Элемент равен "1", например вот здесь, если слово в документе присутствует, и "0", если нет. Это очень простой метод. Он подходит, в том числе, тогда, когда тексты сильно отличаются по длине. Размерность векторного пространства, получаемого таким образом, достаточно большая, и поэтому почти любые классы линейно разделимы, и линейные модели хорошо работают на таких пространствах. Однако главная проблема заключается в том, что и частотные слова общеупотребимые, и специальная лексика, имеют одинаковый вес, то есть мы не знаем, как много используется каждое слово в документе. По этой же причине метод чувствителен к опечаткам, случайным словам, и так далее. Общая проблема разреженных векторных моделей — в так называемом "предположении о независимости". Элементы вектора, соответствующие разным словам заполняются независимо, и таким образом мы теряем информацию о том, что какие-то два слова являются синонимами и если одно встретилось, то, возможно, может встретиться и другое. Из-за этого модель может не очень хорошо обобщаться на новые данные. И это происходит не из-за переобучения, а из-за того, что просто признаки не очень хорошие, в них просто нет такой информации. В то время как высокая размерность вектора может рассматриваться как преимущество, она может также являться и недостатком, потому что если обучающая выборка не очень большая, а признаков при таком подходе получается очень много — сотни тысяч, мы можем переобучиться даже если работаем с простой линейной моделью.
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. https://nlp.stanford.edu/IR-book/

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.