• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В Высшей школе экономики завершился первый год проекта Data Culture. Проект подразумевает, что все студенты университета должны в той или иной степени овладеть анализом данных, потому что сегодня знание методов работы с данными становится базовой компетенцией для специалистов практически во всех областях. В первый год в проект включились более половины программ университета. С нового учебного года Data Culture охватит абсолютно всех. Разбираемся, что это такое и какая студентам от него польза.

Что такое анализ данных

Это большая область на стыке математики и компьютерных наук, направленная на извлечение знаний из каких-либо данных. Сюда могут относиться данные транзакций клиентов банка, большие коллекции изображений, записи из сообществ в социальной сети, тексты новостей за последние 10 лет и т.д. Извлекаемые знания тоже могут быть очень разнообразными — например, по транзакциям можно получить понимание о том, какой банковский продукт (новая карта, кредит, страхование) с наибольшей вероятностью заинтересует каждого конкретного клиента; или, скажем, из текстов новостей можно выделить основные обсуждаемые тематики и визуализировать их популярность в зависимости от времени. Для получения таких результатов используются как методы базовой обработки данных (подсчет средних, отклонений, корреляций, построение различных графиков), так и продвинутые методы машинного обучения, позволяющие находить огромное количество закономерностей в данных.

Из чего состоит проект

Создавая проект Data Culture, в университете исходили из того, что умение работать с данными — обязательный навык хорошо образованного человека XXI века. Это убеждение подкреплялось и популярностью майнора «Интеллектуальный анализ данных»: в этом году конкурс на него составил 5 человек на место (напомним, что в Вышке студент не может записаться на майнор, который совпадает с его основным предметом изучения. То есть конкурс на этот майнор демонстрирует востребованность анализа данных у студентов непрофильных специальностей).  

В первый год в проекте участвовали 26 программ из 39 — от программ факультета гуманитарных наук до «Экономики» и «Международных отношений».

Набор конкретных курсов, которые предлагают студентам в рамках проекта Data Culture, их длительность и сложность зависят от конкретной образовательной программы. Каждой программе присвоен уровень «продвинутости», которого достигнут студенты, изучив обязательный для программы пул дисциплин по Data Culture. Таких уровней четыре — начальный, базовый, продвинутый или профессиональный.

Например, предполагаемый уровень продвинутости для студентов гуманитарного факультета — начальный (он достигается с помощью обязательного курса «Цифровая грамотность» длительностью семестр), для студентов-экономистов — базовый (студенты доходят до этого уровня за счет курсов по математическому анализу, линейной алгебре, теории вероятностей и математической статистике, эконометрике и введению в программирование на Python на 1-2 годах обучения). Дальше при желании можно брать более сложные курсы на майнорах, в рамках дисциплин по выбору, программы Бакалавр+ или изучать их на платформах онлайн-образования.

Особняком стоят программы факультета компьютерных наук, МИЭМ, а также программы «Бизнес-информатика» и «Фундаментальная и компьютерная лингвистика». В большинстве случаев тут не пришлось вводить специальные курсы, потому что обучение анализу данных и машинному обучению на продвинутом или даже профессиональном уровне тут было предусмотрено основной программой.

А теперь давайте посмотрим на конкретные примеры.

Программа «Международные отношения», обязательный курс «Основы анализа данных в международных отношениях». Уровень сложности — базовый  

 

Маргарита Бурова, преподаватель

Благодаря интернету и развитым технологиям, стало возможным получать огромное количество информации. Сейчас более 60% исследований в политологии и международных отношениях реализуются с использованием анализа данных, и думаю, дальше это количество будет только расти.

Но анализ данных может пригодиться не только в научной работе, но и в консалтинге, принятии внешнеполитических решений, разработке бизнес-стратегий для развития компаний в различных регионах. Последние исследования говорят о том, что данные могут позволить нам более точно прогнозировать важные политические события, такие как государственный переворот, вспышки насилия или массовые протесты (и многие, многие другие) на основе запросов в поисковых системах, сообщений в социальных сетях или покупок в Интернете. Словом, если выпускник идет работать по специальности, и его деятельность предполагает анализ политической и/или экономической ситуации в мире, а также ее прогнозирование, то навыки, получаемые в рамках курсов data culture, могут быть крайне полезны. 

После окончания этого курса студент-политолог или международник в первую очередь должен хотя бы понимать, какие подходы к анализу данных существуют, и сферы их применения. Даже если его будущая работа не будет связана с данными, это облегчит его коммуникацию с аналитиками. Он сможет четко поставить им задачу, разговаривая на их языке. Также он сам должен обладать навыками хотя бы самого базового анализа данных.
 

Регина Мустафина, студентка 2 курса

Этот курс, если честно, очень отличается по общей атмосфере от всех остальных предметов более гуманитарной направленности. Здесь мы подходим к информации совершенно с другой, технической, если можно так выразиться, стороны. Нас учили базовым основам программирования на языке Python, который, как оказалось, значительно упрощает работу и представляет всю информацию систематизировано, автоматически подсчитывая все нужные показатели (среднее, медиану), что «вручную» в таблице, например в 2000 строк, сделать было бы крайне сложно. Также в Python можно проследить все нужные взаимосвязи показателей, отобрать факторы, которые могут оказывать влияние на нужные параметры, строить наглядные матрицы корреляций и регрессионные модели.

Кроме основ анализа данных в Python, нам рассказывают о различных способах визуального представления результатов своего исследования — таблицах, диаграммах, гистограммах, бокс-плотах. Анализу текста также уделяется большое внимание, и теперь мы быстро и качественно можем провести анализ любого выступления политика и понять, лексика какого типа там присутствует: агрессивные посылы, лексика, предполагающая сотрудничество и развитие и т.д.

На курсе мы делали исследование эволюции политической ориентации штатов в США: построили персональный график для каждого штата, отследив все необходимые для нашего исследования тенденции. Без знаний, полученных на курсе, мы бы потратили на одну лишь обработку информации очень много времени, так как там было огромное количество строк и столбцов с информацией.

В итоге я считаю этот курс невероятно полезным: в отличие от той же математики, которая, конечно же, «ум в порядок приводит», основы анализа данных и программирование все же куда более прикладная область, сразу понятно, где и как полученные знания применять.  

Что такое Python? Это язык программирования, который сейчас является стандартным инструментом для анализа данных. Он достаточно простой для изучения, из-за чего всё чаще именно на нём учат программировать «с нуля». Популярность Python в анализе данных вызвана тем, что в нём есть средства для удобного извлечения данных из интернета (обход и парсинг сайтов), обработки данных (работа с таблицами, средства визуализации), машинного обучения (от простейших моделей до современных нейронных сетей).

Программа «Экономика и статистика», курс по выбору «Извлечение и анализ интернет-данных». Уровень сложности — продвинутый

 

Екатерина Денике, преподаватель

Я убеждена, что знание Python или другого языка программирования, а также умение работать с массивами данных — это такой же универсальный и полезный навык, как, например, знание английского. При составлении программы у меня было две основные цели:

1) Познакомить ребят с самыми передовыми и модными направлениями в анализе данных.

2) Сделать так, чтобы все студенты, пришедшие на курс, даже те, кто боится программировать и делает это неохотно (а ведь я тоже когда-то такой была), начали не только решать задачи и писать код, но и еще любить это делать.

Поэтому на наших занятиях очень много практической работы и взаимодействия. Сначала мы изучаем основные полезные инструменты языка, далее переходим к инструментам для анализа данных и извлечения данных из интернета. В процессе вспоминаем про ресурсы для анализа данных и машинного обучения, полезные библиотеки, интересные статьи.

 

Полина Казинина, студентка 2 курса

Для того чтобы понимать курс «Извлечение и анализ интернет-данных», нам нужно было сначала самостоятельно ознакомится с основами программирования на языке Python. Для этого можно было пройти курс от НИУ ВШЭ на платформе Coursera. Курс достаточно объемный, но не сложный и хорошо вводит в курс дела.

На самом курсе по извлечению и анализу интернет-данных мы изучали язык уже более глубоко. Также нам показали множество новых функций, позволяющих получать и анализировать практически любую информацию.

В качестве проверки знаний преподаватели давали очень необычные задания. Например, нужно было проанализировать стоимость коворкинга в Москве. Задача заключалась не только в извлечении данных с сайта коворкингов, но и провести парсинг — разбор всей текстовой информации из созданной базы. Мы смотрели, как разные характеристики коворкинга (локация, площадь и так далее) влияют на стоимость. Еще одним забавным проектом мне показался анализ популярности снимка в Instagram. Это было интересно не только с идейной, но и с технической точки зрения: много новых функций, связанных с получением доступа к данным социальной сети. Можно было не только извлечь весь материал с определенного профиля-страницы, но и глобально проанализировать, в каком городе мира и в какое время суток, например, лайков ставят больше всего. 

Факультет гуманитарных наук, обязательный курс «Цифровая грамотность». Уровень сложности — начальный

 


Анастасия Бонч-Осмоловская, разработчик и лектор курса

Курсы начального уровня не предполагают знания математики и программирования. Мы понимаем, что изучающие их студенты ориентировались на другие области знаний, когда поступали в университет, поэтому в курсах начального уровня все объясняется на примерах и «котиках» и даются конкретные инструменты для решения задач, возникающих в исследованиях, с которыми сталкиваются студенты этой программы.

Мы хотим, чтобы студенты знали базовые вещи — что такое машинное обучение, каковы его возможности и ограничения, что такое открытые данные и т.д. Мы также хотим, чтобы они овладели рядом доступных и при этом мощных инструментов (список инструментов варьируется от программы к программе) — средствами для корпусного, сетевого анализа, инструментами визуализации, инструментами для обработки табличных данных (например, дополнительные возможности Excel).

В курсе «Цифровая грамотность» студентам-культурологам и искусствоведам, например, рассказывали о том, как устроены изображения и как можно обрабатывать видео — какие возможности есть у современных программ — коррекция звука, наложение, разные эффекты, склейка и т.д. На практике они монтировали свои ролики из готовых материалов. Эти навыки понадобятся студентам при обработке материалов экспедиций. Также студенты пробовали себя в качестве разработчиков сайтов: изучали, как они строятся, что такое интерфейс, из чего состоят этапы его проектирования, а затем анализировали удобство и понятность интерфейсов популярных сайтов музеев.

Историкам в курсе рассказывали о таком разделе компьютерного зрения как оптическое распознавание символов, которое используется для работы с рукописями, филологи работали с поэтическими корпусами, рассматривали задачи сравнения стиля в разные периоды творчества автора и т.д.


Алиса Урюпина, студентка 1 курса

На курсе «Цифровая грамотность» у нас были лекции и семинары. Материал лекций был вводный, но все равно очень интересный, мы ведь первый раз с этим столкнулись. Конечно, работа с таблицами, с большими массивами данных — это то, что историки делали всегда, но сейчас это можно делать совсем другими, цифровыми, инструментами. Это пригодится, даже если ты работаешь, например, с берестяными грамотами. Допустим, в слове на берестяной грамоте не читаются какие-то буквы и ты не можешь понять, что оно значит. А если есть общий тезаурус слов, употребляемых в этих грамотах, ты просто можешь сделать поиск по нему и он выдаст все подходящие слова.

Анастасия Александровна <Бонч-Осмоловская> рассказывала нам о проектах, посвященных Толстому («Живые страницы» и оцифровка его романов), про корпус русского языка. Кто-то, в том числе я, знали об этом корпусе еще со школы, но многие о нем услышали впервые, а это очень полезный инструмент. Меня эти лекции мотивировали пойти к Анастасии Александровне на проект digital humanities.

Программировать нас не учили. Нам рассказывали про уже существующие инструменты и методы, которыми мы можем пользоваться в своей работе. С ними мы работали на семинарах. Например, нас научили пользоваться гитхабом, или визуализировать данные — составлять облака тегов и строить графы.

Я считаю этот курс просто бесценным, потому что он сразу поднимает нас на современный уровень. Мы уже не олдскульные историки, которые просто сидят в библиотеках, мы будем владеть цифровыми навыками, которые, по-моему, сейчас просто обязательны для всех, независимо от специальности.

 

Чтобы понимать, есть ли на курсе какие-то проблемы, команда проекта проводит опрос студентов спустя 1-2 месяца после старта каждого курса. Студенты заполняют форму обратной связи, а также могут при желании лично встретиться с руководителями и рассказать о том, что идёт хорошо, а что не очень.

На курсе «Цифровая грамотность» такие опросы показали, что студенты плохо понимают цели программы и её связь с другими дисциплинами. Также были выявлены некоторые технические трудности — не всё ПО, которое требовалось для домашних заданий, было легко установить на домашние компьютеры. С учётом всех ошибок программа перерабатывается, меняются цели курса и развиваемые компетенции — теперь они будут находиться в тесной связи с предметной областью студентов.

В следующем учебном году проект Data Culture распространится и на новые бакалаврские программы факультета гуманитарных наук — «Библеистика и история древнего Израиля», «Языки и литература Индии», «Язык и литература Ирана».

 


Михаил Селезнев, академический руководитель программы «Библеистика и история Древнего Израиля»

Для меня и моих коллег интерес к информационным технологиям связан прежде всего с тем, какую роль они играют в работе с языком, с языковыми корпусами. Для нашей «библейской» специальности (равно как, впрочем, и для других специализаций в области классического востоковедения) в центре внимания — языки классических текстов. Обучение у нас — это прежде всего чтение классических текстов, их комментирование, разбор, — и здесь такие вещи, как, скажем, корпусной анализ, оказываются незаменимы. В особенности когда речь идет о языках, на которых сейчас уже не говорят: древнееврейский, древнегреческий. Ведь в случае живого языка, мы, в принципе, можем обратиться к носителю, и он расскажет нам о нюансах употребления такого-то слова, такой-то конструкции. А если носители языка давно умерли? Тогда о нетривиальных нюансах значения или употребления слова можно благодаря анализу его контекстов: оказывается, что вот это слово характерно для поэтических текстов, а вот это слово встречается почти исключительно в переводных книгах...

Но, конечно же, значение информационных технологий для наших гуманитарных исследований не исчерпывается чисто лингвистическими аспектами. Компьютерное моделирование важно и для историка, и для археолога. И мы даже еще не знаем, какие новые точки пересечения гуманитарных наук и анализа данных появятся через пять лет.

Что дальше?

В планах на будущее проекта — усовершенствовать прошедшие курсы с учётом накопленного опыта, проработать пререквизиты к более сложным курсам — в частности, добавить предварительное изучение Python или необходимой для анализа данных математики, там, где без этого не получается, и конечно же, разработать и реализовать все новые дисциплины, из которых складываются траектории освоения культуры работы с данными, рассказывает руководитель проекта Ольга Подольская.

Постепенно будут задействованы и новые форматы обучения: в ход обязательно пойдёт проектная работа (на новой программе двойных дипломов НИУ ВШЭ и Университета Кёнхи «Экономика и политика в Азии», например, она уже запланирована), некоторые лекционные курсы заменятся онлайн-дисциплинами, чтобы освободить время для практических занятий и консультаций. А еще планируется ввести на каждой образовательной программе консультантов — специалистов по анализу данных в предметных областях, которые смогут ориентировать студентов в цифровых методах обработки данных для их исследований и проектов.