DSC04478-1

DSC04478-1
Что значит «большие данные»? На этот и другие вопросы о компетенции «Машинное обучение и большие данные» рассказывает главный эксперт Ольга Владимировна Марухина.

– Что значит «большие данные»? – задаю вопрос главному эксперту компетенции «Машинное обучение и большие данные» Ольге Владимировне Марухиной, к.т.н., доценту ФГАОУ ВО «Национальный исследовательский Томский государственный университет».

– Это очень философский вопрос, который я всегда задаю студентам. Помните: одно зерно – куча? А два? А двадцать? Конечно, в классическом понимании большие данные – это террабайты информации в секунду. Для их обработки используют коллайдеры. Здесь, на чемпионате, о таких объемах речи не идет уже потому, что нет компьютеров необходимой мощности. Но массивы информации, с которыми работают участники, тоже достаточно большие.

Ребятам предложена довольно сложная задача.   Если кратко, речь идет об обработке текстовой информации, которая поступает от граждан на определенный сайт. Это замечания по проблемам ЖКХ, благоустройству и т.п. Например, прорвало трубу, появилась стая бездомных собак и т.д. Т.е. все, к чему граждане считают нужным привлечь внимание городских служб.

Сейчас в базе таких жалоб 60 тысяч. Все они представлены в виде файлов и на первом этапе участники выполняют предобработку – представляют информацию в специальном виде для того, чтобы в дальнейшем можно было с ней работать. После этого требуется выполнить обработку данных – построить модель для распознавания новых обращений (провести обучение) и в результате создать такую интеллектуальную систему, которая будет классифицировать обращения граждан и направлять ее в соответствующую службу.

Самый зрелищный момент наших соревнований – презентация системы. Участники будут презентовать полученный результат, рекламировать систему, демонстрировать ее работу. Проверка будет проходить на новых запросах: задается в предложенном формате новое обращение (например, «упал забор»), система должна принять его, классифицировать, присвоить идентификатор и сообщить кому передано на исполнение. Это финальный этап, остальные выглядят не столь эффективно – просто сидит человек за компьютером, на экране цифры…

– Что в таком проекте для участия главное – математика или программирование?

– Это тоже непростой вопрос. Здесь все важно: и математика, и статистика,и программирование. Например, у себя в Университете мы провели анализ результатов своих участников (в этой компетенции мы с 2018 года). Заметили, что «проседаем» по программированию, это не дает показать высокий результат. Поэтому даже немного откорректировали учебную программу.

– Как важен показатель скорости работы итоговой системы?

– В принципе главное – точность. Во всяком случае, в рамках Чемпионата. Здесь важно, чтобы участник сделал выбор правильного алгоритма с учетом отведенного для выполнения задания времени. Приведу пример. Однажды была ситуация, что участник решил использовать нейросеть для создания своей системы. Нейросеть-то он построил, но отработать до конца не успел. Результата он не получил, поэтому никакой оценки не получил.

– Компетенция достаточно новая. Уже определились лидеры среди вузов?

– Я провела несколько чемпионатов у себя, прошла путь от регионального до сертифицированного эксперта, была на чемпионатах в нескольких вузах. И могу сказать, что каждый город, каждый вуз «выстреливает» своим участником. Развивая эту тему, скажу, что каждый город имеет свое лицо. Томск по численности почти как Ижевск. У нас очень много вузов, в том числе два национальных исследовательских университета. Можно сказать, в городе много научных голов, но относительно немного заказчиков. В Ижевске картина иная. Здесь много промышленности, вы можете коллаборировать с конкретными заказчиками, брать у них конкретные данные, помогать строить интеллектуальные системы и т.п.

– Есть желание и возможность посмотреть наш город?

– Конечно, интересно было бы, но пока большая загрузка на площадке. К тому же очень жарко, ходить по улицам в такую погоду тяжеловато. Но желание, безусловно, есть.

– Спасибо, успехов и новых впечатлений.

Елена Шевякова

 

DSC04480-1
DSC04480-1
DSC04484-1
DSC04484-1
DSC04486-1
DSC04486-1