Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:28Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:28 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Всем привет! Это видео посвящено одной из самых частых постановок задач в обработке текстов — распознаванию плоской структуры. Задача заключается в выделении в тексте сегментов или коротких подпоследовательностей и соотнесения их с заданными категориями. Эта задача чем-то похожа на семантическую сегментацию изображений. Итак, на вход поступает короткий текст (чаще всего это отдельное предложение). Для каждого токена нужно предсказать класс. Смысл классов зависит от каждой отдельно взятой задачи. Например, в задаче распознавания именованных сущностей классы могут включать локацию, организацию, персону, ну и так далее. Тогда в результате извлечения этих сущностей мы получим список такой же длины, что и список токенов, в котором на каждой позиции стоит класс соответствующего токена. В задаче определения частей речи (или POS-тэггинге) классы, вполне ожидаемо, соответствуют частям речи, но общий процесс при этом никак не меняется. В англоязычной литературе для обозначения этого класса задач используются термины "chunking" или "shallow parsing", то есть "поверхностный разбор". Наиболее очевидные применения включают снятие частиречной омонимии, поверхностный синтаксический анализ — когда нужно найти все словосочетания определённого вида (например, существительное и прилагательное или существительное и существительное), но, при этом, не нужно выделять какую-то сложную иерархию. Это часто бывает полезно в задачах поиска (чтобы искать не только по отдельным словам, но и по более сложным элементам), распознавания именованных сущностей (названий организации, лекарств, фамилий, локаций, и так далее), извлечения фактов (то есть связанных между собой сущностей), сегментации текста, разбиения на токены, предложения (кстати, в некоторых языках даже это может быть проблемой), а также выделения заголовков в списках литературы. Короче говоря, уметь распознавать плоскую структуру — это практично, полезно и, при этом, не так сложно, как делать, например, полный семантический анализ.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.