>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:36Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:36 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Привет! На сегодняшнем семинаре мы рассмотрим задачу анализа тональности текстов на примерах отзывов об автомобилях, и для этого мы будем использовать датасет, который предлагался участникам соревнования SentiRuEval-2015[1]. У нас есть оригинальный XML-файл с размеченными отзывами об автомобилях, поделённый на training-часть и test-часть, по 200 отзывов в каждом. Содержимое этих файлов выглядит следующим образом: в отзыве присутствует разметка, в которой выделены ключевые слова в тексте, означающие позитивную, нейтральную или негативную оценку. Например, "просторный багажник" — это пример позитивной оценки в отзыве об автомобиле. А такие слова, как "руль закрывает обзор" — это явно негативная часть отзыва. Также, помимо тональности, у нас есть аспекты — категории, которые упомянуты в отзыве. Посмотрим, как они выглядят. Помимо тональной разметки в датасете также содержится аспектная разметка. Проще говоря, в отзывах есть некие аспекты или категории, о которых написан отзыв, например — "общее впечатление" об автомобиле, "надёжность", "стоимость", "управляемость", "внешний вид", "комфорт"... (кажется, всё). На основе оригинальной разметки к данному датасету мы подготовили BIO-разметку, чтобы размеченный таким образом датасет можно было подавать на вход нашей нейросети. Как можно видеть на двух примерах на экране, мы добавили тэг "OTHER" для всех слов, которые не относятся к аспектам или тональности, объединили в сущности, стоящие рядом. Результат вы видите сами. Мы выделили все куски текста, которые были вне оригинальной разметки (например, вот эти два), также (в этих кусках) сделали деление на слова и, наконец, добавили BIO-тэги размеченных в оригинале элементов. А, как вы помните, BIO-тэг — это b — beginning (начало), i — inside (внутри), и о — other (для всего, что не важно для задачи).
[1] http://www.dialog-21.ru/evaluation/2015/sentiment/

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.