И настало время рассмотреть первую архитектуру, которая будет использовать свёртки и pooling. И в качестве этой архитектуры я приведу LeNet. LeNet -- это архитектура, которая была предложена Яном ЛеКуном для того, чтобы распознавать рукописные цифры. На входе у нас имеется изображение размером 32 на 32 со всего одним каналом. То есть это черно-белое изображение. Это изображение скармливается в свёртку размером 5 на 5, то есть это означает, что фильтры в этой свёртке имеют размер 5 на 5, и на выходе из этой свёртки должно получиться 6 каналов. Причём, в этой архитектуре мы не делаем никаких паддингов. Вопрос: какого размера получится результат этой операции -- свёртки 5 на 5, без паддингов, со страйдами 1 по X и 1 по Y, и на выходе должно быть 6 каналов?

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.