Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:40Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:40 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Более сложный и мощный класс — языковые модели. Они предсказывают следующее слово по известному префиксу предложения, и, как правило, реализуются глубокими нейронными сетями. Хорошая новость в том, что, несмотря на то, что методы — обучаемые, разметка им не требуется. Такие методы называются методами с самонаблюдением (self-supervised), то есть целевая переменная берётся из самих анализируемых объектов — например, это просто следующее слово. То есть, руками размечать ничего не надо, и мы можем автоматически обработать гигантские объёмы текста. Методы из этой группы, особенно — основанные на языковых моделях, позволяют достичь наилучшего качества на некоторых сложных задачах. Наконец-то мы отвергли предположение о независимости словоупотреблений и наконец-то можем начать работать с синонимами. Так как в основе этих методов лежит оптимизация, мы можем настраивать веса моделей с учётом сразу нескольких критериев, таким образом делая признаки полезными сразу для нескольких задач. Это очень популярное сейчас направление — оно называется "multitask learning". Но за все надо платить — эти модели гораздо дороже с точки зрения объёмов вычислений, особенно нейросетевые модели. И другая сложность заключается в том, что им нужны гигантские объёмы текста. Еcли у вас меньше нескольких миллионов документов, обучить с нуля качественную языковую модель у вас, скорее всего, не получится, однако сейчас в интернете доступны веса моделей, уже обученных на некоторых больших корпусах, их можно просто скачать и использовать в своём проекте (это здорово).
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.