>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:59Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:59 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Как мы только что выяснили, наиболее существенное отличие задачи распознавания плоской структуры от задачи классификации — в том, что метки соседних элементов зависят друг от друга. Другими словами, метки зависят от контекста, одни и те же слова в разных ситуациях могут получать разные метки. Это создаёт некоторые сложности, и поэтому применяют специальные схемы — схемы кодирования меток. Вернёмся к нашему примеру про "отличную погоду в Питере". Это предложение может быть токенизировано примерно следующим образом. В простейшем случае мы можем для каждого вида сущностей иметь только одну метку — например, "ORG" для организаций или "LOC" для локаций, а "None" соответствует отсутствию метки у данного токена — это означает, что токен не входит ни в какую сущность. А что, если "Росгидромет" назван не одним словом, а полностью — вот, как в документе? У нас получилось целых восемь слов вместо одного. Казалось бы, можно оставить всё как есть и назначить одинаковую метку всем словам, входящим в эту гигантскую сущность. Однако, на практике, это несколько неудобно. Во-первых, контекст должен учитываться действительно хорошо (по сути, от него всё зависит). А что, если в союзе "и" наш классификатор ошибётся, и предскажет "None"? Тогда мы получим, вместо одной правильной сущности, две очень странные сущности, которые не соответствуют ничему в реальной жизни. Или, наоборот, если в предложении идут две сущности подряд без союза или без знака препинания между ним — как их разделить? У нас все метки одинаковые — по меткам мы не поймём, что это разные сущности. На помощь приходят дополнительные метки — дополнительные классы, которые мы сами вводим для того, чтобы обрабатывать такие специальные ситуации. Итак, самый простой способ — это IO-кодирование, то есть "inside-outside", внутри или снаружи. По сути, все примеры, которые мы рассматривали до этого, использовали именно такой способ кодирования: если слово входило, например, в наименование организации, оно получало тэг "орг", а если слово не входило никуда, оно получало тэг "None". Следующий логический шаг — начать отдельно обрабатывать слова, с которых начинаются сущности. Такая схема кодирования называется BIO (beginning, inside, outside): начальный элемент, внутренний элемент, наружный. При этой схеме кодирования каждому типу сущности соответствует уже не одна метка, а две: начало сущности и слово внутри сущности. И теперь уже вполне понятно, как разделять две сущности, идущие подряд, когда после тэга внутреннего элемента мы увидим тэг начального элемента. Схема BIO — самая популярная схема, она простая и её достаточно в большинстве случаев. Однако можно пойти дальше и добавить ещё больше деталей — обрабатывать больше специальных случаев. В этой схеме отдельно обрабатываются первые слова сущностей, внутренние слова, последние слова сущностей и однословные сущности. Таким образом у нас уже не один тэг на тип сущности, и не два, как в BIO, а целых 4. Эти схемы кодирования используются для подготовки обучающей выборки. То есть, для преобразования информации о том, где в тексте начинается очередная сущность и где она заканчивается, в метки для каждого слова.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.