Получается, что сети ResNet уже неважно, сколько пикселей во входном изображении, важен масштаб деталей. Почему?
- в конце сети тензор разрезается на несколько, и мы берём среднее значение от всех частей
- в конце сети тензор усредняется и таким образом масштабируется до размера полносвязанного слоя
- при такой большой глубине, важные признаки всплывают сами, и мы отсекаем неважные
- при такой большой глубине, сеть теряет информацию о количестве признаков в изображении
Для просмотра статистики ответов нужно
залогиниться.