Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:18Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:18 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Всем привет! В этот раз мы поговорим о прикладных задачах. К прикладным задачам мы отнесли те, которые можно так или иначе положить в основу продукта. Самая популярная задача — это классификация.[2] Следующая крупная группа методов — поиск по разным видам запросов. Извлечение структурированной информации[1] — важная задача, связанная с наполнением баз данных, автоматизацией, переносом компетенций, процессом принятия решений... Ещё две задачи связаны с переводом текста в текст, а именно — диалоговые системы и машинный перевод. Немного в стороне стоит эксплоративный анализ — задача без чётких критериев качества, когда надо понять, что вообще происходит. Итак, самая базовая задача — это тематическая классификация длинных текстов, для которых проставлены золотые метки. Длина текстов должна позволять набрать хоть какую-то статистику. Природа меток такова — они зависят от состава текста в целом, а не от отдельных фраз или формулировок. Самый подходящий алгоритм для этой задачи — это линейный классификатор с разреженными признаками, взвешенными по частоте[3] (например, TF-IDF). Нейросети тоже можно применять, но они часто не дают большого прироста в качестве. Когда мы имеем дело с короткими текстами, ситуация несколько меняется: частоты слов уже не подсчитать, да и метки чаще связаны со структурой фраз, а не с тематикой. Например, по составу слов в этом предложении достаточно сложно определить его эмоциональную окраску, однако если мы рассмотрим связи тональных слов с теми словами, которые они определяют, станет понятно, что предложение, в целом, положительное. И вот тут нейросети работают уже существенно лучше — особенно, когда есть большой размеченный корпус. Если меток не очень много, ядерные методы могут сработать лучше. А если же разметки нет вообще, то, возможно, проще запрограммировать правила, анализирующие структуру предложений[4], обходящие синтаксические деревья или семантические сети[5] и принимающее решения.
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. https://nlp.stanford.edu/IR-book/
[2] Список статей с кодом по тематике классификации текстов https://paperswithcode.com/task/text-classification
[3] https://en.wikipedia.org/wiki/Bag-of-words_model
[4] Лексико-синтаксические шаблоны в системе GATE https://gate.ac.uk/sale/tao/splitch8.html#chap:jape
[5] Лексико-синтаксические шаблоны Томита-парсера https://github.com/yandex/tomita-parser/blob/master/docs/ru/tutorial/basic-rules.md

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.