Допустим, Вы хотите строить матрицу признаков с помощью TF-IDF на биграммах токенов (N-граммах с N=2). Оцените, приблизительно, наибольшее количество уникальных биграмм в словаре для достаточно большой коллекции. Предполагайте, что в текстах используется 1000 уникальных токенов.
- 1000
- 10000
- 1000000
- 2000
- 50000
Для просмотра статистики ответов нужно
залогиниться.