>>1.00<<>>1.00<<Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 7:01Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -7:01 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Отлично, прокачавшись на онлайн-курсах, имеет смысл продолжить изучение самостоятельно. Теория без практики быстро вылетает из головы, поэтому очень полезно писать код самостоятельно и разбираться с различными подходами. Если вы чувствуете, что после прочтения статьи детали имплементации всё равно ускользают, самое время обратиться коду и поизучать популярные Github-репозитории и библиотеки. Например, вам точно могут пригодиться следующие библиотеки. Почти про все из них мы и говорили в нашем курсе — например, pytorch, torchtext, pytorch-transformers, библиотеку spacy и многие другие. И давайте ещё немного поговорим про полезные инструменты. Например, набор семантических моделей для русского языка, токенизатор YouTokenToMe от команды ВКонтакте (он уже упоминался в нашем курсе), также иногда полезно листать wiki ACL[3] (это wiki ассоциации компьютерной лингвистики), и особенно, страницу с задачами по NLP из этой wiki[2]. А также здесь (на этом слайде) я привожу ссылку на список датасетов, которые могут вам пригодиться при решении каких-либо задач, связанных с NLP.[1] Итак, посмотрев пару онлайн-курсов, разобравшись в имплементации популярных моделей и обучив много-много сеток самостоятельно, вы накопите достаточный объём знаний и зададитесь следующим вопросом: а как же постоянно оставаться в курсе последних тенденций и следить за выходом новых статей и решений? Сразу предостерегу вас — не нужно абсолютно каждый день пролистывать все свежие статьи на Архиве (arxiv.org) или половину дня тратить на чтение обзоров на Медиуме (medium.com). Это приводит к расфокусировке, нехватке времени на основной проект или решение задач на работе. Тем не менее, узнавать про новые актуальные подходы очень хочется, не правда ли? План такой. Попробуйте выделять на разбор новых статей, например, один день в две недели. Во-первых, отслеживайте ключевых авторов в области, которой интересуетесь, и подписывайтесь на них на Google Scholar (scholar.google.com). Например, следите за публикациями Christofer Manning, Sebastian Ruder, Oriol Vinyals или Daniel Jurafsky, или кого-то ещё... И не забывайте про такой сервис, как arxiv-sanity (arxiv-sanity.com). Кроме того, участвуйте в reading клубах или релевантных научных семинарах или каких-то митапах. А, вспоминая предыдущий совет номер 2 про обязательное чтение кода — не игнорируйте такой ресурс, как paperswithcode (paperswithcode.com). Там вы сможете найти ссылки на статьи и ссылки на Github-репозитории с реализации моделей из этой статьи. Во-вторых, читайте блог-посты и обзоры на статьи. Например, Sebastian Ruder очень классно ведёт свой блог, публикуя не только обзоры новых статей, но и понятные, подробные объяснения ключевых техник и решений в области NLP. Также очень полезно читать блоги крупных компаний, чтобы быть в курсе последних модных моделей. Ну, например, полезно почитать блог OpenAI, блог Google или блог Facebook. Из русскоязычных ресурсов хочется упомянуть NLPub (nlpub.ru) — каталог ресурсов для обработки естественного языка. Он поддерживает открытые проекты по созданию и развитию русских языковых ресурсов. Также интересные статьи выходят в формате "нейро-наггетов" от сотрудников компании Neuromation. Но если вам нужны красивые визуализации, стоит заглянуть на distill.pub. Тем не менее, помните, что исследования и разработка продуктов — это две совершенно разные отрасли с разными подходами. Так что читайте статьи с некоторым скепсисом и не покупайтесь на красивые идеи, которые не подкреплены кодом и кучей экспериментов — есть большой риск потратить много времени впустую. А если вдруг вы запутались во всём перечисленном многообразии статей, блог-постов, обзоров, ссылок, то забудьте все предыдущие ссылки и просто кликайте сюда — на ссылку "NLP Awsome List" (github.com/keon/awesome-nlp). Большинство обсуждавшихся ранее ресурсов уже включены сюда и, в принципе, большинство важной информации вы сможете найти по этой ссылке. Хорошо, чтение статей — это, конечно, здорово. Но, наверняка, вы задаётесь и более насущными вопросами. Например — где взять видео-карту, чтобы натренировать модель из видео-урока или попробовать запустить код с Github. Во-первых, купить свою видеокарту — это отличная инвестиция в будущее. Получение оффера в желаемую компанию точно окупит затраты на видеокарту. А во-вторых, облачные сервисы — например, Microsoft Azure или Google Cloud, Amazon AWS, предоставляют хорошие скидки или даже бесплатные ресурсы для студентов и учащихся. Если вы хотите чуть подробнее узнать про такие возможности (на базе, например, AWS), прочитайте про Github Student Pack, а также статью по 3-ей ссылке с этого слайда про программу AWS Educate. Также вы можете ознакомиться с предложением для учащихся от Microsoft Azur. Оно тоже может вам пригодится для обучения каких-то моделей. Что же осталось? Следующий совет — конечно, нужно ездить на крупные конференции и читать обзоры представленных там статей. Обратите внимание на такие конференции по NLP, как ACL, EMNLP, SIGIR и многие другие. Также не забывайте про конференции в целом по машинному обучению — например, ICML, ICLR и другие. Кроме конференций, полезно часть времени тратить на летние школы — например, из проводимых в России летних школ хочется отметить DeepBayes, а также в этом году в Сколтехе проводилась школа под названием MLSS. Вообще, список грядущих летних школ и дэдлайны подачи на них можно легко нагуглить, и это отличный способ не только узнать что-то новое, но и обзавестись интересными контактами, узнать больше о работе коллег из других компаний, или даже других стран. Также, участвуйте в соревнованиях на kaggle и исследовательских соревнованиях — так называемых shared tasks (например, в соревнованиях TREC, RuEVAL) и многих других. Ну и, конечно, решайте соревнования, аффилированные с крупными конференциями или воркшопами, проводимыми до или после этих конференций. И последний совет (и, наверное, самый важный): осваивая знание в теории и не занимаясь настоящими проектами вы, рано или поздно, достигнете некоторого предела и дальше развиваться вам будет очень и очень сложно. Поэтому — ещё одна рекомендация — попробуйте устроиться на релевантную работу или стажировку. Например, мы ждём талантливых начинающих специалистов на стажировки в московский офис Samsung. А те из вас, кто хорошо себя проявит при решении контеста на kaggle, который мы анонсируем в этой главе курса, будут сразу приглашены на собеседование в Samsung. Мы ждём ваши крутые решения!
[1] Список популярных датасетов
[2] https://aclweb.org/aclwiki/State_of_the_art
[3] https://aclweb.org/aclwiki/Main_Page

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.