В последнем утверждении есть некоторая недосказанность.
Мы сказали, что в оригинальной архитектуре LeNet последняя (4-ая) свертка имеет размер 16x5x5 и, соответственно, каждый ее нейрон (которых 120 – по количеству выходов) будет иметь 400 весов. Что равно количеству весов для нейрона полносвязного слоя в том случае, если мы сперва "растянем" тензор 16x5x5 во входной вектор.
Весов действительно 400, а сколько всего обучаемых параметров в нейроне предложенной свертки?

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.