Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:25Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:25 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Итак в этом видео мы поговорили о задаче распознавания плоской структуры коротких текстов. Её ещё называют "chunking" или "поверхностный разбор". Такая постановка задачи используется для извлечения именованных сущностей, определения частей речи и множества других прикладных задач. Мы выяснили, что задача "chunking" отличается от обычной классификации отсутствием независимости меток друг от друга — они теперь зависят друг от друга. А ещё мы поговорили о том, как готовить обучающую выборку, а именно — о том, как назначать золотые метки токенам. Мы рассмотрели три наиболее распространённые схемы кодирования. Для задач такого рода, в некотором смысле, есть золотой молоток — то есть общая архитектура, применяемая почти всегда: получить эмбеддинги, потом контекстуализировать, предсказать вероятности и сгладить их с помощью CRF. Её можно применять в любых задачах, если у вас достаточно данных. Если же данных меньше, то можно отбросить нейросети и оставить CRF. А ещё мы вкратце поговорили про CRF. Эта модель заслуживает гораздо большего внимания, но это не совсем вводная тема.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.