Допустим, предложения в некотором языке имеют среднюю длину в 5 слов. Средняя длина слова в символах - 5.
Предположим также, что для этого языка характерно наличие далёких связей между словами (кореферентность, непроективные синтаксические связи).
Тогда чтобы успешно предсказывать последнее слово в предложении, языковой модели, работающей на уровне целых слов (word-level), нужно в среднем помнить 5 предыдущих элементов, а модели на уровне символов (character-level) - 25.
Почему character-level моделям сложнее?
Отметьте один или несколько вариантов.

Длинные последовательности не влезают в память видеокарт.
Если строить авторегрессионную языковую модель с помощью рекуррентных нейросетей, то с ростом длины последовательности острее проявляется проблема затухания градиента и забывания со временем.
Если строить авторегрессионную языковую модель с помощью свёрточных нейросетей, сложно учитывать широкий контекст, так как ширину рецептивного поля свёрточных нейросетей можно увеличивать только вместе с количеством параметров (добавляя слои).
При переходе на уровень символов вырастает размер словаря и становится дорого считать softmax.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.