Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:29Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:29 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Давайте теперь посмотрим, как всё то, что мы сейчас описали, реализовать по-быстрому, по простому, с помощью библиотеки scikit-learn. Весь вышеприведённый ноутбук на scikit-learn укладывается всего лишь в 5 строчек — мы задаём параметры алгоритма векторизации текстов, указываем токенизатор, задаём те же параметры для фильтрации токенов по частоте. Говорим, что мы будем использовать логистическую регрессию и обучаем. Давайте посмотрим, какого качества можно достичь с помощью проверенной реализации логистической регрессии. Здесь вы можете видеть, что доля верных ответов на обучающей выборке — поменьше, то есть наша реализация давала accuracy 0.99, реализация scikit-learn даёт 0.96. Но, с другой стороны, на валидации, реализация scikit-learn работает лучше на 4%. Это говорит о том, что модель из scikit-learn переобучилась гораздо меньше. Об этом говорит и гораздо меньший разброс значения функции потерь. Здесь значения функции потерь на обучении и на валидации имеют один порядок и отличаются в первом знаке после запятой. Ну что ж, в качестве домашнего задания вы можете поэкспериментировать с нашей реализацией логистической регрессии и снизить эффект переобучения и добиться лучшего качества, чем у реализации из scikit-learn.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.