Есть ли смысл дополнительно подавать в BERT последовательность токенов в обратном порядке?
Количество данных для обучения при этом увеличится в два раза (каждую последовательность будем подавать в BERT дважды: в прямом и обратном порядке).
- Да, BERT сможет выделить дополнительные взаимосвязи, научившись предсказывать не только следующий токен, но и предыдущий
- Да, чем больше данных, тем лучше
- На качество работы модели это повлияет в лучшую сторону, но это не стоит вычислительных ресурсов из-за увеличения тренировочных данных вдвое
- Нет, BERT маскирует часть токенов во входной последовательности и пытается их предсказать используя контекст, порядок (прямой или обратный) никакой роли не сыграет
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.