Есть ли смысл дополнительно подавать в BERT последовательность токенов в обратном порядке?
Количество данных для обучения при этом увеличится в два раза (каждую последовательность будем подавать в BERT дважды: в прямом и обратном порядке).

Да, BERT сможет выделить дополнительные взаимосвязи, научившись предсказывать не только следующий токен, но и предыдущий
Да, чем больше данных, тем лучше
На качество работы модели это повлияет в лучшую сторону, но это не стоит вычислительных ресурсов из-за увеличения тренировочных данных вдвое
Нет, BERT маскирует часть токенов во входной последовательности и пытается их предсказать используя контекст, порядок (прямой или обратный) никакой роли не сыграет

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.