Проанализируем формулу кросс-энтропии для бинарной классификации. Для единственного примера она вычисляется следующим образом:
BCE(y^,y)=−ylogy^−(1−y)log(1−y^)BCE(y^,y)=−ylog⁡y^−(1−y)log⁡(1−y^)BCE(\hat{y}, y) = - y \log \hat{y} - (1 - y) \log (1 - \hat{y})
где y∈{0,1}y∈{0,1}y \in \{0, 1\} - настоящая метка класса для объекта, а 0В процессе обучения классификатора мы минимизируем кросс-энтропию на всех обучающих примерах (сравните с описанием BCELoss в PyTorch):
BCE1..n=∑ni=1(−yilogy^i−(1−yi)log(1−y^i))→minBCE1..n=∑i=1n(−yilog⁡y^i−(1−yi)log⁡(1−y^i))→minBCE_{1..n}= \sum_{i=1}^{n} ( - y_{i} \log \hat{y}_{i} - (1 - y_{i}) \log (1 - \hat{y}_{i})) \rightarrow min
Например, на двух обучающих примерах y1=1,y2=1y1=1,y2=1y_{1} = 1, y_{2} = 1 формула примет вид:
BCE1,2=−logy^1−logy^2BCE1,2=−log⁡y^1−log⁡y^2BCE_{1,2} = - \log \hat{y}_{1} - \log \hat{y}_{2}
Мы предлагаем вам проанализировать полученную формулу на следующих предсказаниях модели y^1,y^2y^1,y^2\hat{y}_{1}, \hat{y}_{2}:
y^=[0.99,0.01]y^=[0.99,0.01]\hat{y} = [0.99, 0.01] - первый объект классифицируется уверенно правильно, а второй уверенно неправильно
y^=[0.5,0.5]y^=[0.5,0.5]\hat{y} = [0.5, 0.5] - модель не может принять решения, абсолютно неуверенное предсказание
y^=[0.99,0.45]y^=[0.99,0.45]\hat{y} = [0.99, 0.45] - первый объект классифицируется уверенно правильно, а второй неуверенно неправильно
y^=[0.65,0.65]y^=[0.65,0.65]\hat{y} = [0.65, 0.65] - оба объекта классифицируются правильно, но классификатор не очень уверен в принятом решении
Какие виды ошибок с точки зрения кросс-энтропии более критичны и насколько это согласуется с Вашими ожиданиями как человека? :)
Фраза "Модели выгоднее предсказывать А, чем Б" означает, что суммарное значение функции потерь будет ниже, если модель предскажет набор ответов А, по сравнению с ситуацией, в которой она для тех же объектов предскажет набор ответов Б.
P.S. В этом задании Вам может пригодиться Python, чтобы было удобнее сравнивать значения BCE для разных вариантов предсказаний.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.