Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:40Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:40 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Перейдём к поисковым задачам. Самый популярный вид поиска — по запросу. При этом, запрос не обязательно является связным текстом на каком-то языке, чаще это просто набор ключевых слов. На входе имеем коллекцию текстов. Будет большим плюсом, если уже накоплена какая-то статистика посещения пользователей, по которой мы можем обучить оценку релевантности. По сути, алгоритм должен сравнивать два текста по содержанию: короткий запрос и длинный ответ. Система должна работать даже тогда, когда статистика ещё не накоплена. Базовый подход — это векторная модель текста вместе с классическими формулами оценки релевантности — как правило, это всё основано на частотах слов. Следующее логичное развитие — это расширить частотную модель с помощью дистрибутивной семантики, то есть "эмбеддингами" слов (наподобие word2vec). Можно также использовать глубокий лингвистический анализ и графовые ядра, чтобы точнее сопоставлять тексты. Когда накапливается статистика посещения пользователей, появляется возможность применять обучаемые методы ранжирования (на английском эта задача назывался "learning to rank"). Самые популярные алгоритмы для ранжирования — это градиентный бустинг и нейросети. Более сложная постановка задачи поиска — поиск между модальностями, например, когда мы ищем картинку по тексту, или наоборот[1]. В этом случае исходные данные — это коллекция мультимедийных документов, состоящая из текста и иллюстраций, например — веб-страницы. Исторически первый подход работал через текстовый поиск, ключевой момент здесь — это определять, какой именно текст на странице описывает изображение. Тогда, если мы ищем по тексту, то мы сначала находим страницу, а потом, по положению текста и картинок, понимаем, какая картинка найденному тексту соответствует.[2] Если же ищем по картинке, то — наоборот, сначала ищем ближайшую картинку, а потом со страницы берём ближайший к ней текст. Однако сейчас гораздо чаще используются нейросетевые архитектуры, получающие общее векторное представление — и для картинок, и для текста[3] — в этом случае у нас есть возможность искать похожие объекты в этом векторном пространстве[4]. Иногда мы не хотим руками составлять поисковый запрос, но у нас есть какой-то документ, который нам понравился — например, статья по психологии. Так как я не специалист по психологии, я не могу составить грамотный поисковый запрос, чтобы поискать похожие статьи на эту же тему. Почему бы тогда не использовать прямо этот документ, как запрос? На помощь приходит "поиск похожих документов".[5] В этой области достаточно хорошо работают классические подходы с TF-IDF и N-граммами. Однако, как мы уже обсуждали, такие модели предполагают, что частоты словоупотреблений независимы, поэтому мы можем терять полноту из-за того, что не учитываем какие-то синонимы. Альтернативный подход — через тематическое моделирование.[6] Гигантская матрица размерности ["количество документов" на "количество слов"] факторизуется на две матрицы поменьше, и мы используем только первую из них для поиска документов. Этот механизм обладает большей полнотой, но уступает по точности первому подходу, так как при факторизации мы теряем информацию о специфических, достаточно редкий словах.
[1] Frome, Andrea, et al. "Devise: A deep visual-semantic embedding model." Advances in neural information processing systems. 2013.
[2] Feng, Yansong, and Mirella Lapata. "Automatic image annotation using auxiliary text information." Proceedings of ACL-08: HLT. 2008.
[3] Wang, Liwei, Yin Li, and Svetlana Lazebnik. "Learning deep structure-preserving image-text embeddings." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[4] Gomaa, Wael H., and Aly A. Fahmy. "A survey of text similarity approaches." International Journal of Computer Applications 68.13 (2013): 13-18.
[5] Zubarev, Denis, and Ilya Sochenkov. "Using Sentence Similarity Measure for Plagiarism Source Retrieval." CLEF (Working Notes). 2014.
[6] Ianina, Anastasia, Lev Golitsyn, and Konstantin Vorontsov. "Multi-objective topic modeling for exploratory search in tech news." Conference on Artificial Intelligence and Natural Language. Springer, Cham, 2017.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.