Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:46Загрузка: 0%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:46 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
CRF — это целый класс очень мощных графических моделей общего назначения. В этом видео мы не будем разбирать эти модели в деталях, но знать базовые принципы очень полезно. Условные случайные поля, чаще всего, применяются в задачах сегментации разного рода — сегментации картинок например, или текстов, когда объекты состоят из множества базовых элементов, для каждого из которых нужно предсказать метку и метки зависят друг от друга. То есть, это распределение не факторизуется. Эта модель относится к классу неориентированных графических моделей, или марковских сетей. Если мы решаем задачу классификации, то нам не обязательно полностью моделировать вот это сложное распределение, нам достаточно уметь находить точку его максимума. То есть, уметь находить наиболее вероятное сочетание меток. Однако и эта задача, в общем случае, является крайне сложной с вычислительной точки зрения и требует численной оптимизации для каждого примера. Это может быть очень дорого на практике. Хорошая новость заключается в том, что мы работаем с текстами, а текст можно рассматривать как цепочку объектов. Конечно, это приближение — и текст, на самом деле, более сложная структура, нежели просто цепочка. Но даже с таким упрощением, CRF, по-прежнему, полезен — это пример удачного баланса между простотой и практичностью. На схеме оранжевые кружочки с "иксами" — это наблюдаемые переменные. Другими словами — это признаки слов, извлекаемые с помощью нейросети. Синие кружочки с "игреками" — это скрытые переменные. Мы их не видим, но их нам и нужно найти. На схеме видно, что каждый "игрек" зависит максимум от трёх других переменных — двух соседних "игреков" и соответствующего вектора признаков. Если переписать эту схему на язык распределения вероятностей — получим, что интересующее нас условное распределение меток факторизуется и оно стало намного проще. Нам, по-прежнему, нужно решать оптимизационную задачу, так как "игреки" зависят друг от друга, но, в случае с такой линейной топологией, существует эффективный алгоритм, основанный на динамическом программировании.[1] С точки зрения прикладного результата, CRF ограничивает некорректные переходы между метками и снижает уровень шума, то есть он имеет возможность исправить некоторые ошибки классификатора. В целом, качество существенно улучшается.
[1] Алгоритм Витерби
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.