Допустим, Вы хотите строить матрицу признаков с помощью TF-IDF на биграммах токенов (N-граммах с N=2). Оцените, приблизительно, наибольшее количество уникальных биграмм в словаре для достаточно большой коллекции. Предполагайте, что в текстах используется 1000 уникальных токенов.

  • 1000
  • 10000
  • 1000000
  • 2000
  • 50000
Для просмотра статистики ответов нужно залогиниться.