>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:05Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:05 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Для демонстрации мы с ребятами подобрали несколько коварных предложений. Во-первых, это "мама мыла раму" — здесь омонимичное слово "мыла". Второе предложение — это "косил косой косой косой" — здесь вообще непонятно, что происходит. Затем — известное предложение "глокая куздра штеко будланула бокра и кудрячит бокрёнка", а также, ещё несколько примеров в таком же духе. Таким образом, мы имеем возможность проверить, во-первых — насколько модель хорошо определяет части речи слов для неизвестных слов. Предложений про "глокую куздру" в обучающей выборке не было. Таким образом это тест на неизвестные слова, а ещё есть несколько тестов на контекст — на учёт контекста, а именно здесь: "ведро дало течь" — это существительное, а "вода стала течь" — это глагол. "Сорок сорок" — здесь одно из слов числительное, а другое — существительное. Ну что ж, давайте посмотрим, как наши модели отработали на этих предложениях. Мы видим, что, например, в последнем предложений "сорок сорок", модель назначает просто наиболее вероятный тэг: слово "сорок" всё-таки чаще используются как числительное. Аналогично и в других случаях. Но хорошая новость — в том, что для неизвестных слов модель отработала просто отлично. Хотя допустила пару ошибок, а именно — "штеко" — это не существительное, а наречие. Ну что ж, теперь — вторая модель. Мы сразу видим, что "сорок сорок" уже разобраны более-менее правильно, то есть одно из этих слов — это числительное, а второе — это существительное. Также в предложении про "глокую куздру" исправлена ошибка с наречием, в предложении про "пирожки" эта нейросеть уже смогла различить ситуации, в которых и слово "печь" используется как существительное, и как глагол. Забавно, что во втором аналогичном предложений нейросеть тоже отличила две ситуации, но перепутала. То есть, в том случае, где должен был быть глагол, получилось существительное, а во втором случае должно было быть существительное, а получился глагол. Предложение про "косого косого", который "косил косой" тоже разобрано чуть лучше, хотя и не идеально. Предложения про "три да три будет шесть" или "будет дырка" разобрались так же, предположительно — потому, что мы использовали только три слоя свёрток для учёта контекста токенов и, возможно, нейросети просто не хватило рецептивного поля, то есть для слова "три" она не могла увидеть, что в конце предложения есть слово "шесть". Это просто очень далеко. Вы можете это проверить сами, добавив больше свёрток. Мы увидели, что, действительно, для задачи определения частей речи, учитывать контекст токенов действительно важно, в определённых случаях. А также мы, в принципе, убедились, что архитектура, которую мы описали, работает для этой задачи и достигает приемлемых показателей качества.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.