Расскажи, как ты пришел в data science?
Я учился в Иркутске на бакалавра в области энергетики, осваивал инженерную специальность. И когда писал диплом, заинтересовался программированием и машинным обучением. Летом поступил в магистратуру Томского государственного университета (специализация «Интеллектуальный анализ
больших данных» — прим. авт.). Понятно, что там идет упор на научную работу, поэтому data science пришлось изучать самостоятельно с нуля.
Как организовано твое самостоятельное обучение?
В России и в мире в целом сообщество специалистов по data science довольно сплоченное. Ребята любят друг другу помогать, поэтому изучать дисциплину можно в Google и на Stack Overflow. Люди задают вопросы, а эксперты отвечают, потому что рады делиться информацией.
В последние несколько лет также стали появляться книги на русском, так что мне проще, чем тем, кто начал изучать data science пять или больше лет назад.
Над каким проектом работаешь в магистратуре?
Я учусь на втором курсе и готовлю дипломный проект, связанный с анализом лиц. Сейчас я пытаюсь найти корреляцию между лицом и характером человека.
Не думаю, что это можно назвать физиогномикой, поскольку эта «наука» сродни гаданию. А я планирую работать с объективной реальностью и статистическими моделями.
Пока рано делать выводы о том, что получится на выходе. Надеюсь, это будет нечто интересное.
В сети доступны готовые обучающие выборки для обучения такого проекта? Какие данные ты используешь для разработки?
Главная сложность заключается в том, что таких выборок нет. При этом психологические черты крайне сложно оценить количественно. Из-за этого приходится общаться с разными психологами, пробовать разные подходы и методологии для оценки психики человека. Пока я проанализировал около 15 типологий. В итоге планирую искать корреляцию по двум из них — Big Five и тесту Майерс — Бриггс.
За чем ты следишь в мире data science?
Мне нравится компьютерное зрение — на мой взгляд, работать в этой сфере интереснее, чем заниматься табличными данными или предсказывать курс биткойна. Область тесно связана с искусственным интеллектом и передовыми разработками, например, беспилотными автомобилями или дронами, в том числе военными.
В России есть интересные игроки на этом поле? Какие проекты кажутся тебе перспективными?
Этим направлением в России занимается компания N-Tech Lab. Она несколько лет подряд становилась победителем мирового чемпионата Google по распознаванию лиц (MegaFace Benchmark — прим. авт.), в котором используется база с миллионом изображений. Сейчас они прекратили участие в соревнованиях и переключились на коммерческую разработку, можно сказать, дали дорогу молодым. Но их история вдохновляет.
Планируешь потом устроиться в аналогичную компанию? В целом, какие перспективы на рынке?
Я работаю в небольшом стартапе, где пока остаюсь единственным разработчиком систем машинного обучения. Тоже занимаюсь распознаванием лиц. После выпуска продукта хотелось бы поработать вместе с другими разработчиками, большой командой. Сейчас я все делаю все сам и, возможно, не так, как принято.
Как тебе кажется, технологии искусственного интеллекта действительно меняют мир?
Да. Все автоматизируется. В ближайшие пять лет магазины избавятся от кассиров — взять к примеру Amazon. На входе система распознает тебя по лицу, затем определяет, какие продукты ты положил в корзину и [рассчитывает сумму к оплате]. Подобные проекты абсолютно реальны, но для их развития нужно обработать огромное поле данных. А для этого потребуются десятки и сотни специалистов, так что работа точно найдется.
А этические вопросы — например, применение ИИ в военных целях, — тебя беспокоят? Например, недавно лидеры ИТ-индустрии подали письмо в ООН с просьбой ограничить использование роботов-убийц.
В этом смысле я согласен с Илоном Маском и Биллом Гейтсом, которые считают, что государство должно контролировать исследования в области искусственного интеллекта.
Небольшая компания из нескольких десятков человек способна сделать с помощью ИИ такие вещи, которые потрясут весь мир.
Так что есть веские причины сравнивать технологию с ядерным оружием, как это делает Маск.
Но когда в ООН обсуждали эту проблему, российские дипломаты заявили, что роботов-убийц пока в принципе не существует, так что о запретах говорить рано.
Чтобы сделать робота-убийцу, достаточно на дрон прикрепить пулемет и видеокамеру с распознаванием лиц, например, по национальному признаку или военной форме. Даже если устройство будет контролировать человек, его можно будет перехватить и перепрограммировать.
А что касается других сфер применения ИИ — медицины, транспорта?
Другой тренд — это автоматическая постановка диагноза на основе нескольких параметров. Но мне кажется, что в ближайшем будущем отрасль такие разработки не примет.
Если диагноз поставят неверно, на ком будет лежать ответственность? На программисте? Слишком много формальностей препятствуют осуществлению таких проектов. То же касается и беспилотных автомобилей.
Как, по-твоему, будут применяться технологии распознавания лиц? Их будут использовать для прогнозирования преступлений?
Технологию можно использовать и в недискриминирующих областях. К примеру, искать предрасположенность человека в молодом и даже взрослом возрасте к конкретному роду занятий. Мне на самоопределение понадобилось 23 года, а некоторые так и не находят себя.
Можно установить корреляцию между внешностью и тем, в каких сферах деятельности люди добиваются успеха.
Возможно, распознавание лиц также позволит определять склонность человека к мошенничеству. Технология также подойдет для кредитного скоринга. В нашей компании мы как раз разрабатываем такое приложение. Однако здесь много подводных камней. В Евросоюзе, например, принята конвенция, запрещающая дискриминацию людей по полу и возрасту. Поэтому банкам запрещено учитывать такие параметры в скоринге. Думаю, распознавание лиц тоже попадает под этот запрет.
Не получится ли так, что ИИ-системы в будущем снимут с человека ответственность за его личный выбор?
Полностью возлагать ответственность на ИИ никто не будет. Но алгоритмы будут составлять рекомендации. Допустим, они определят [особенности характера] с вероятностью 95%. Выбор же всегда останется за человеком.
Полное детерминирование методами ИИ — это скорее это утопия, а вот рекомендательная система гораздо ближе к реальности.
Сейчас ты участвуешь в чемпионате DigitalSkills. Как ты вообще пришел в движение WorldSkills?
У нас в Томске проходили отборочные состязания, и менеджер нашего направления предложил мне поучаствовать. Первенство впервые должно было проходить по [компетенции] «Машинное обучение», и никто не понимал, что происходит. Предполагалось, что команды будут состоять их двух человек, а потом выяснилось, что я буду один. Я не ожидал, что выиграю на региональном этапе. Но так получилось.
Я выиграл не потому, что самый умный — просто мне повезло. Мы занимались задачами классификации, регрессии, а также нужно было создать прикладное решение на основе чатбота. И критерии оценки оказались нестандартными. Обычно оценивают точность работы алгоритма, а в данном случае учитывали шаги, которые мы делали, чтобы прийти к окончательному решению. Если у тебя есть логика действий, грамотный анализ признаков и их предобработка, то тогда ты попадаешь в лидеры.
В Казани задания отличаются от регионального этапа?
На DigitalSkills задачи намного сложнее. Нам предоставили 16 показаний датчиков, которые измеряют сварной шов на стыке труб. По ним нужно определить, какие методы использовались при оценке этого шва. По сути мы делаем обратный анализ (reverse data analysis).
Задача для data science крайне нетрадиционная, нетривиальная. Такого никто не ожидал, даже самые сильные из участников. Интересно, что задание составлял технарь, инженер, а не человек из сферы анализа данных.
Планируешь дальше развиваться в системе WorldSkills?
В машинном обучении есть платформа для соревнований, которая называется Kaggle. В моей области традиционно специалисты продвигаются именно там. WorldSkills — это что-то новое для нас, разработчики в России пока об этом направлении не знают. Если через год мне не помешает возрастной ценз, то я снова буду участвовать в DigitalSkills.