Во время обучения машинному обучению размер мини-партии предпочтительно равен степени двойки, например 256 или 512. В чем причина этого?
- Для Mini-Batch установлено значение 2, чтобы удовлетворить требования к памяти процессора и графического процессора и облегчить параллельную обработку
- Когда мини-пакет является четным, алгоритм градиентного спуска обучается быстрее
- Ничего из перечисленного
- Функция потерь нестабильна, когда четные числа не используются
Для просмотра статистики ответов нужно
войти.