>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 5:00Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -5:00 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
В этой и паре следующих лекций мы рассмотрим разные задачи, которые в нашей предметной области есть. Можно выделить три высокоуровневые группы задач обработки текстов на естественном языке. Первая группа — это лингвистический анализ. Методы из области лингвистического анализа направлены на разбор структуры текста на разных уровнях. Задачи из этой группы мы рассмотрим прямо в этой лекции. Вторая группа — методы извлечения признаков из текстов. Они частично пересекаются с первой группой, но, в то время как задачи лингвистического анализа — это самостоятельные задачи, задачи извлечения признаков всегда предшествуют применению методов машинного обучения. Третья группа — прикладные задачи, они ближе к бизнесу, к пользователю. Как правило, для их решения используются методы из первых групп плюс какие-то специальные надстройки. Рассмотрим задачи, входящие в лингвистический анализ текстов. Цель: извлечение структуры текста. Как мы уже говорили ранее, решаются задачи в порядке от низкоуровневых к более высокоуровневым. Сначала мы разбиваем текст на предложение и токены. За это отвечает графематический анализ. Потом разбираем каждое предложение от морфологии до семантики. Затем разбираем связи предложений друг с другом, чтобы структурировать повествование, анализируем дискурс. Отдельно стоит задача генерации текста — это не про анализ, это про синтез. Как правило, для решения каждой задачи используются результаты всех предыдущих. Итак, графематический анализ принимает на вход сырой текст и возвращает разбиение на токены и предложения. Для его реализации, в простейшем случае, используются регулярные выражения. Мы просто находим все разделительные символы — пробелы и знаки препинания, а потом из них отбираем только те, которые соответствуют окончанию предложения. Часто не очень просто определить, какая точка обозначает окончание предложения, а какая — сокращение. Например, в этом предложении есть фамилия, имя, отчество. Имя и отчество сокращены, а дальше следует "точка". Какая из этих трёх точек обозначает конец предложения? Чтобы убрать эту неоднозначность на практике, после регулярных выражений, используются вероятностные модели, описывающие совместное распределение вероятностей меток токенов. К таким моделям относятся случайные условные поля или скрытые марковские модели. Мы не будем подробно их рассматривать в данном курсе, но важно, чтобы вы знали, что такие модели есть и знали, как они называются, чтобы могли самостоятельно почитать. Морфологический анализ работает с отдельными токенами. Для каждого токена анализатор предлагает набор сочетаний характеристик, к которым относится часть речи, падеж, число, начальная форма... При этом анализатор не может выбрать только одно сочетание характеристик, потому что для этого нужно привлекать более широкий контекст. Другими словами, частиречная омонимия пока не разрешается. Например, для слова "мыла" вот в такой форме анализатор предложит два варианта: это прошедшее время и женский род глагола "мыть", а также родительный падеж и единственное число "мыло". Для реализации используются разные методы, самый простой из которых — словарный. Для частотных словоформ все возможные варианты уже известны наперёд, надо их только достать. А для неизвестных или редких слов используются регулярные выражения, системы правил, которые по окончанию слова пытаются предположить, как должна выглядеть начальная форма этого слова, а также морфологические характеристики этой словоформы. Логичный следующий шаг — это для каждого токена, из всех вариантов, предложенных для него морфологическим анализатором, выбрать только один, то есть разрешить частиречную омонимию. Омонимия снимается в рамках одного предложения. Такого контекста на практике достаточно почти всегда. В результате из всего множества вариантов выбирается только один — например, "глагол". Для решения этой задачи существуют методы, основанные на правилах, в том числе полученных с помощью машинного обучения. Однако более современный и более распространённый вариант — это вероятностные модели и последовательности, то есть условные случайные поля и марковские модели. Когда размеченный корпус достаточно большой, рекуррентные нейросети позволяют улучшить качество ещё сильнее.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.