Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 2:32Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -2:32 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Привет! На сегодняшнем семинаре мы рассмотрим задачу поиска именованных сущностей в тексте на примере рецептов еды, а также обучим нейросеть LSTM, которая будет автоматически делать эту задачу за нас. Обратим внимание на наш ipython ноутбук. У нас есть CSV-файл, в котором содержатся строки из рецептов блюд на английском языке, а также пояснения к этим рецептам. В колонке "input" у нас строка с рецептом блюда, в колонке "name" — название основного продукта в этом блюде, в колонках "quantity" и "range_end" содержится информация о количестве этого продукта в блюде, колонка "unit" отвечает за единицу измерения. В первом и во втором рецепте это — количество в "чашках", в последнем рецепте это "столовые ложки". Колонка "комментарий" отвечает за дополнительные сведения о приготовлении блюда. Для этого семинара мы перевели наш файл с рецептами в формат BIO, когда каждому слову соответствует тэг, и взяли из него первые 50 тысяч рецептов. Формат BIO подразумевает, что каждая именованная сущность может состоять из нескольких слов: "b" — beginning, "inter" — это продолжение. В данном случае именная сущность "комментарий" состоит из четырёх слов, именованная сущность "тыква" (а именно её вид) состоит из двух слов, сущность под названием "комментарии" состоит из трёх слов, где "peeled" — это начало, а это — продолжение. Попытаемся обучить нейросеть LSTM на наших размеченных данных. Нейросети не умеют принимать на вход слова, они умеют принимать на вход числа, поэтому мы построим два индексных словаря — для слов, которые содержатся в рецептах, и для их тэгов. Для этого мы определим объект "конвертер" и рассмотрим пример, как он работает. Исходный рецепт выглядит следующим образом — в сконвертированном виде каждому слову будут соответствовать некие индексы в словаре (и так далее), каждому тэгу будет соответствовать индекс в словаре тэгов. Наш конвертор работает правильно, поэтому при обратной конвертации мы не теряем нашу информацию. Мы разделим наши 50000 рецептов на две части: первые 40 тысяч мы будем использовать для тренировки нейросети, оставшиеся 10 тысяч — для оценки её точности.
К сожалению, у нас пока нет статистики ответов на данный вопрос,
но мы работаем над этим.