>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 3:26Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -3:26 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Словарь символов — это "dict" питоновский, который отображает подстроку, содержащую единственный элемент (это сам символ) в номер этого символа. Таким образом мы можем каждый токен представить как список чисел. Также нам опять пригодится фиктивный символ, который будет означать отсутствие символа. Он будет использоваться для того, чтобы уравнять длины всех токенов и всех предложений. Как мы видим, всего у нас в корпусе 150 уникальных символов. Самый частотный символ — это пробел, затем идут гласные. Аналогичную процедуру проделаем и с метками частей речи. Для того, чтобы составить обучающую выборку, нам нужно преобразовать строковые метки частей речи в их номера. Как мы видим, всего в корпусе 17 частей речи и мы добавляем сюда фиктивную "часть речи" — опять же, для того, чтобы выравнивать длины предложений. Что же значат эти метки частей речи? "VERB" — это глагол, "PROPN" — это имя собственное, "NUM" — это числительное, "NOUN" — это существительное... Ну, и наконец, мы перекладываем весь исходный корпус в специальные структуры, для того, чтобы подавать их в наш цикл для обучения. То есть мы перекладываем их в pytorch Dataset. Мы используем стандартный TensorDataset, он принимает на вход список тензоров, то есть, для того чтобы использовать этот Dataset, нам нужно подготовить эти тензоры. Первый — это тензор идентификаторов символов, а второй — это идентификаторы меток частей речи. Давайте рассмотрим поподробнее, как именно мы составляем эти тензоры. Вот — эта функция, которая нас интересует — она на вход получает список токенизированных предложений. На самом деле, это не просто список токенизированных предложений, а это результаты разбора исходного корпуса в формате CoNLL, то есть в нём токены имеют дополнительную информацию, а именно — информацию о частях речи. То есть эта функция предназначена для преобразования обучающей и тестовой выборки в 2 тензора тензора — тензор входных идентификаторов символов и тензор выходных идентификаторов тэгов. Кроме списка исходных предложений нам нужно отображение из символов в номера символов, а также отображение из меток в номера; нам нужна оценка максимальной длины предложения и максимальной длины токена в символах. Создаём заготовки для тензоров — сначала мы эти тензоры инициализируем нулями. Тензор номеров символов имеет следующую размерность: [количество предложений (всего в обучающей выборке) на количество токенов в предложений на максимальную длину токена]. Но, кроме этого, мы добавляем ещё 2 дополнительных колоночки к каждому токену. Эти колоночки дополнительные мы будем заполнять нулями — они нам нужны для того, чтобы указать нейросети, что определённая N-грамма символов встречается именно в начале токена или именно в конце токена, но не в середине. То есть это нужно для того, чтобы нейросеть умела отличать начало слова и конец слова от середины слова.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.