Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 0:58Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -0:58 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Конечно, это искусственный нейрон с "D" входами и одним выходом. Настраивать веса этой модели будем, минимизируя значение функции потерь бинарной кросс-энтропии. Она определяется следующим образом: у нас есть два слагаемых: первое слагаемое отвечает за штраф в случае ложно-отрицательных предсказаний, то есть когда документ принадлежит к положительному классу, а модель выдала для него низкую вероятность. Второе слагаемое отвечает за штраф в случае ложно-положительных предсказаний, и нам нужно минимизировать общий штраф. Данная формула описывает функцию потерь для одного примера. Как всегда, настраивать будем градиентным спуском. Хотя, когда параметров мало, у нас появляется возможность использовать и более быстрые методы оптимизации.[1]
[1] Под "более быстрыми методами оптимизации" имеются в виду приближённые методы второго порядка (квази-Ньютоновские): https://en.wikipedia.org/wiki/Limited-memory_BFGS, https://github.com/tensorflow/kfac
Список литературы:
Линейная модель https://en.wikipedia.org/wiki/Linear_classifier
Логистическая регрессия в Scikit-learn https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
Обобщённые линейные модели https://en.wikipedia.org/wiki/Generalized_linear_model
Метод наибольшего правдоподобия - откуда можно вывести формулу BCE https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
Чтобы усилить линейную модель, можно
нагенерировать более мощных признаков, например, из комбинаций исходных признаков https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html
или использовать kernel trick - перейти из пространства признаков в пространство расстояний до других объектов https://scikit-learn.org/stable/modules/kernel_approximation.html
Под "более быстрыми методами оптимизации" имеются в виду приближённые методы второго порядка (квази-Ньютоновские):
https://en.wikipedia.org/wiki/Limited-memory_BFGS
https://github.com/tensorflow/kfac

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.