Получается, что сети ResNet уже неважно, сколько пикселей во входном изображении, важен масштаб деталей. Почему?

в конце сети тензор разрезается на несколько, и мы берём среднее значение от всех частей
в конце сети тензор усредняется и таким образом масштабируется до размера полносвязанного слоя
при такой большой глубине, важные признаки всплывают сами, и мы отсекаем неважные
при такой большой глубине, сеть теряет информацию о количестве признаков в изображении

Для просмотра статистики ответов нужно войти.