Мы с вами уже рассмотрели задачи восстановления скрытой зависимости или задачу регрессии, задачу бинарной классификации и задачу многоклассовой классификации. Сейчас мы с вами рассмотрим задачу, ещё одну, которая сочетает в себе несколько этих задач. Эта задача будет задачей локализации. В чём она заключается? У нас есть картинка, и на этой картинке где-то есть объект. Для иллюстрации, картинка у нас будет содержать кота, и нам нужно на картинке найти, где этот кот находится. Что нам нужно сделать, чтобы решить эту задачу? Начнём с того, что нам нужно построить какую-то сеть, которая будет принимать на вход картинку и будет выдавать следующее. Для начала нам нужно определиться с тем, есть или нет на этой картинке кот. Соответственно, один из выходов нейронной сети нам должен говорить вероятность: есть здесь кот, или нет, то есть, с какой вероятностью на этой картинке находится кот. Если кота нет, то вероятность должна быть очень маленькая, а когда кот есть, вероятность должна стремиться к 1. Кроме этого, мы можем по-разному параметризовать прямоугольник, который обозначает регион, где находится кот. Я предлагаю этот прямоугольник параметризовать следующим образом: во-первых, мы должны определить, где у этого кота находится центр это вот этот вот жёлтый крестик. И также мы должны определить размеры кота: его высоту и ширину. Соответственно, нейронная сеть должна нам выдавать 5 выходов: первый выход должен соответствовать вероятности найти кота на этой картинке, второй и третий выходы должны обозначать центр, где находится кот на этой картинке, четвёртый и пятый выходы должны обозначать, какого размера этот кот. Мы будем эту задачу решать с некоторым количеством ограничений. Некоторые из этих ограничений могут показаться не очень логичными, но я объясню, зачем они нужны. Во-первых, на картинке может быть только один кот, или вообще не быть кота. Зачем мы это делаем? Допустим, у нас на картинке два кота. И тут возникает сразу вопрос: какой из этих котов будет правильным? Чтобы исключить этот вариант, мы ограничиваем количество положительных объектов до одного. То есть, у нас может на картинке быть только один кот. Дальше: если центр объекта лежит в пределах картинки, то мы считаем, что объект на картинке есть. А если его нет, этого центра, в пределах картинки, то мы считаем, что и объекта нет. То есть, если мы видим ухо кота, но при этом мы не видим центр кота, то мы считаем, что кота на этой картинке нет. Это может показаться странно, но я объясню, зачем это нужно чуть попозже, когда мы перейдём к определению функций активации, которые должны нам помогать решать эту задачу. И третье ограничение заключается в том, что объект может выходить за пределы картинки то есть, если у нас есть большой кот, и мы его сфотографировали так, что мы видим его центр, небольшую часть, условно говоря, его нос, то кот на картинке есть, и он такого размера, что этот размер гораздо больше, чем размер картинки.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.