Получается, что сети ResNet уже неважно, сколько пикселей во входном изображении, важен масштаб деталей. Почему?

  • в конце сети тензор разрезается на несколько, и мы берём среднее значение от всех частей
  • в конце сети тензор усредняется и таким образом масштабируется до размера полносвязанного слоя
  • при такой большой глубине, важные признаки всплывают сами, и мы отсекаем неважные
  • при такой большой глубине, сеть теряет информацию о количестве признаков в изображении
Для просмотра статистики ответов нужно залогиниться.