Прежде, чем рассматривать процесс обучения нейронной сети, мы рассмотрим понятие размеченной обучающей выборки. Что такое размеченная обучающая выборка? Размеченная обучающая выборка состоит из какого-то количества объектов, и для этих объектов мы знаем две вещи: во первых, это некоторые признаки, x1x_1 и так далее xNx_N. Для каждого объекта мы знаем некоторый набор признаков. Кроме того, мы знаем некоторую метку объекта у1у_1 и для N-ного объекта это будет уNу_N. Рассмотрим пример: зависимость силы ветра от дня. Чем может характеризоваться день? Во-первых, это порядковый номер дня в году. Во-вторых, было ли облачно, или не было облачно в этот день. В-третьих, какая была температура в этот день. В-четвёртых, какое было давление в этот день, ну, и так далее. y1y_1 и так далее yNy_N, в нашем случае, это будет скорость ветра в метрах в секунду. То есть, что это означает -- что по признакам, какой номер дня (и так далее, было ли облачно или не было облачно), мы хотим восстановить, какая была сила ветра в этот день. Мы можем на этом обучить некоторую нейронную сеть. Но прежде, чем обучать нейронную сеть, мы разделим эту выборку на три куска, это хорошая практика. Это тренировочный под-датасет, это валидационный под-датасет и тестовый под-датасет. Что такое тренировочный под-датасет? Это то, что мы непосредственно используем для обучения нашей модели. Валидационный датасет нам нужен для того, чтобы подстраивать параметры обучения нашей модели. Мы на самом деле его никогда не используем в процессе обучения, но мы подгоняем некоторые параметры, чтобы на этом датасете результаты были лучше. И тестовый датасет -- это датасет, на котором мы будем проверять окончательный результат. Мы никогда его не видели и не подгоняли никаких параметров под этот тестовый датасет. Если у нас получится хороший результат на тестовом датасете, это означает, что наша модель обобщила информацию, которая ей была предоставлена.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.