Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:33Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:33 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Давайте посмотрим на характеристики матрицы, которые у нас получились. Количество строк в этих матрицах соответствует количеству примеров в обучающей и в тестовой выборке соответственно, а количество столбцов соответствует количеству уникальных токенов, то есть размеру словаря. А ещё на экране вы видите процент заполненности матриц. Для того, чтобы посчитать, мы взяли количество ненулевых элементов и поделили на полный размер матрицы, то есть на произведение количества строк и количества столбцов. Как видите, в этих матрицах заполнено меньше 0.5% элементов, то есть, используя разреженные матрицы, мы экономим гигантское количество памяти. Давайте, для интереса, посмотрим — как же значения этой матрицы распределены. В принципе, здесь также выполняется закон Ципфа. Все значения матрицы лежат строго в диапазоне от нуля до единицы — то чего мы и хотели получить. Давайте теперь проанализируем распределение классов в нашем датасете. У нас всего 20 классов и... о, хорошая новость — классы распределены практически равномерно в обучающей выборке. Да и в тестовой — тоже равномерно. Поэтому, так как классы распределены почти равномерно, мы можем смело использовать accuracy (или долю правильных предсказаний) как рабочую метрику. Если бы распределение классов было скошенным, эта метрика было бы уже неподходящей, она бы давала сильно завышенные оценки.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.