Когда аналитика становится понятной: Александр Полянкин о взаимодействии с большими данными

Мнения

Катя Литвинова4 июля, 10:47

Катя Литвинова4 июля, 10:47

В мире, все больше управляемом данными, способность быстро и интуитивно извлекать значимые инсайты стала конкурентным преимуществом. Александр Полянкин, ведущий разработчик Metabase, раздвигает границы возможного в бизнес-аналитике, разрабатывая инновационные решения на базе искусственного интеллекта, которые позволяют нетехническим пользователям делать сложные запросы к базам данных с помощью естественного языка. От его начала пути в программировании с мечтами о разработке игр до архитектуры систем, обрабатывающих миллионы таблиц, карьера Александра показывает, как глубокая техническая экспертиза в сочетании с пользовательско-ориентированным дизайн-мышлением может трансформировать наше взаимодействие с технологиями. В интервью Хайтек+ Александр рассказал о вызовах внедрения искусственного интеллекта в специализированных областях, будущем взаимодействия человека с компьютером и о том, почему техническая архитектура имеет большее значение, чем когда-либо в эпоху искусственного интеллекта.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

— Александр, ваш путь в технологиях начался с мечты о разработке компьютерных игр, а сейчас вы возглавляете команды в Metabase, одном из самых популярных инструментов бизнес-аналитики с открытым исходным кодом. Как ваша ранняя страсть к программированию эволюционировала в карьеру, сфокусированную на бизнес-аналитике и визуализации данных?

Почему США, Китаю и России важно первыми установить на Луне атомный реактор

— Действительно, компьютерные игры были моим первоначальным стимулом. В старших классах школы я начал изучать программирование на Pascal, увлекся математикой, даже занял третье место на областной олимпиаде. После школы я получил красный диплом в Волгоградском государственном техническом университете, где углубленно изучал разработку на C# и .NET. Моя профессиональная карьера началась с позиции бэкенд-разработчика, но довольно быстро я обнаружил, что меня привлекает фронтенд-разработка — возможность непосредственно видеть результаты своей работы и влиять на пользовательский опыт. Именно это привело меня в компанию Wrike, где я мог сосредоточиться на создании интерфейсов. Переход к бизнес-аналитике произошел не сразу, но оказался естественным. Работая над отчетами и интерфейсами в Wrike, я глубже погрузился в вопросы визуализации данных и осознал, насколько критичным может быть хорошо спроектированный инструмент для принятия решений. К моменту, когда появилась возможность присоединиться к Metabase, я уже имел солидный опыт работы с большими данными и интерфейсами для аналитики. Меня привлекла возможность создавать инструменты, которые помогают людям самостоятельно находить ответы в своих данных без необходимости знать SQL или другие технические языки.

— Вы упомянули, что ваш переход от бэкенд- к фронтенд-разработке был обусловлен желанием активно улучшать пользовательский опыт. Насколько важен пользовательский интерфейс в сложных аналитических инструментах, и как вы балансируете между мощностью и доступностью при проектировании этих систем?

— Пользовательский интерфейс в аналитических инструментах — это не просто оболочка, а главный фактор их эффективности. Это особенно верно сегодня, когда с данными работают не только аналитики, но и сотрудники практически всех отделов компании. В сфере бизнес-аналитики существует фундаментальное противоречие: наиболее мощные возможности часто скрыты за сложными техническими барьерами. Наша задача — сделать эту мощь доступной без необходимости становиться техническим экспертом.

Поиск правильного баланса — это постоянный процесс. Мы начинаем с глубокого понимания задач пользователя. Например, в Metabase мы обнаружили, что люди хотят задавать вопросы своим данным, не задумываясь о структуре таблиц и полей. При этом опытным пользователям нужно сохранить возможность точного контроля над запросами. Наш подход заключается в создании многоуровневой системы: интуитивно понятный визуальный конструктор запросов для новичков, более гибкие инструменты для продвинутых пользователей и возможность прямого написания SQL для экспертов. Такая стратификация позволяет каждому найти комфортный уровень взаимодействия с системой. Еще одна важная стратегия — постепенное раскрытие сложности. Базовый интерфейс должен быть минималистичным, но с возможностью углубляться в детали по мере необходимости. Это позволяет пользователям развиваться внутри системы, постепенно открывая для себя новые возможности.

— Один из ваших недавних проектов, Metabot AI, решает задачу предоставления пользователям возможности создавать запросы к базам данных с помощью естественного языка. Это кажется особенно сложным, когда речь идет о клиентах с тысячами уникальных таблиц. Что делает эту проблему такой сложной с технической точки зрения?

— Разработка систем, способных понимать естественный язык в контексте баз данных, представляет собой одну из самых увлекательных и сложных задач, с которыми мне приходилось сталкиваться.

Основная сложность заключается в огромном масштабе и уникальности данных наших клиентов. У некоторых из них насчитывается более миллиона различных таблиц и более 20 миллионов полей — это значительно превышает сложность тестовых примеров, используемых в учебниках. Понимание контекста является важным фактором в этой задаче. Когда пользователь просит «показать мне три самых продаваемых продукта за прошлый год», система должна правильно интерпретировать термины «продукт», «продаваемый» и «год» в контексте конкретной базы данных. Термины, которые кажутся нам очевидными, могут иметь совершенно разные технические значения в системе.

Еще одной сложностью является неоднозначность и полисемия в естественном языке. Одна и та же фраза может иметь различные значения в зависимости от контекста данных. В отличие от общих языковых моделей, которые могут предложить приблизительный ответ, аналитическая система должна выдавать точные и проверяемые результаты. Отдельная проблема — это преобразование намерения пользователя в корректный технический запрос. Необходимо не просто понять, что хочет пользователь, но и сформировать запрос, который эффективно выполнится на конкретной базе данных с учетом ее структуры и особенностей.

Мы решаем эти задачи с помощью многоэтапного подхода. Сначала используем векторизацию текста запроса для определения наиболее релевантных таблиц из миллионов доступных. Затем анализируем степень соответствия: если есть явный лидер, работаем с ним, если несколько близких вариантов — запрашиваем уточнение у пользователя. После того как мы определили релевантные таблицы, строим специализированную модель контекста для этих конкретных данных и только потом формируем финальный запрос. Такой многоуровневый подход позволяет справляться с масштабом и уникальностью данных каждого клиента.

— Это очень эффективный подход к решению такой сложной проблемы. Вы также работали над серверным рендерингом с использованием GraalVM для обеспечения таких функций, как уведомления и распространение отчетов. Не могли бы вы объяснить эту технологию более простыми терминами и почему она важна для инструментов бизнес-аналитики?

— Да, конечно. Представьте, что у вас есть сложный отчет с графиками и таблицами, который пользователи обычно просматривают в браузере. Теперь представьте, что этот же отчет нужно автоматически отправлять по электронной почте или в Slack каждую неделю, или настроить уведомления, когда какой-то показатель выходит за пределы нормы. Обычно визуализация отчетов работает в браузере пользователя — это фронтенд. Но для автоматической отправки отчетов нам нужно создать эту визуализацию на сервере без участия пользователя и его браузера. Здесь возникает проблема: код, написанный для браузера, не может просто так запуститься на сервере, потому что это разные среды выполнения. GraalVM решает эту проблему. Это особая виртуальная машина, которая позволяет запускать JavaScript (язык браузера) прямо на сервере внутри Java-приложения (язык, на котором написана серверная часть Metabase). По сути, мы создаем на сервере особую среду, имитирующую браузер, и запускаем в ней тот же код, который обычно выполняется в браузере пользователя.

Все это критически важно для аналитических инструментов по нескольким причинам. Во-первых, мы можем использовать один и тот же код для рендеринга визуализаций и в браузере, и на сервере, что обеспечивает согласованность результатов. Во-вторых, это позволяет создавать регулярные автоматические отчеты — пользователи могут настроить отправку важных данных всей команде каждое утро понедельника без необходимости вручную формировать отчет. Кроме того, эта технология позволяет реализовать систему уведомлений на основе событий в данных. Например, система может автоматически сформировать и отправить уведомление, если продажи упали ниже определенного порога, или если появились необычные закономерности в данных. Это трансформирует аналитику из пассивного инструмента, который нужно специально открывать и проверять, в активного помощника, который сам обращает внимание на важные изменения.

— Александр, если говорить о вашем опыте, то до Metabase вы работали в Wrike, где помогли оптимизировать приложение для корпоративных клиентов с большими объемами данных. Благодаря вам удалось добиться улучшения времени загрузки больших отчетов в 10 раз. Какие ключевые архитектурные изменения позволили добиться таких значительных улучшений производительности?

— Действительно, работа с корпоративными клиентами в Wrike стала серьезным испытанием на прочность для нашей архитектуры. Когда компания начала активно выходить на рынок крупных корпораций, мы столкнулись с ситуациями, где пользователи управляли десятками тысяч проектов с миллионами задач — это совершенно другой масштаб по сравнению с типичным клиентом. Для этого нам пришлось переосмыслить подход к получению данных. Изначально наша система пыталась загрузить все необходимые данные целиком, а затем обрабатывать их на стороне клиента. Это работало для небольших объемов, но становилось неприемлемым при корпоративных масштабах. Мы перешли к модели, где большая часть обработки и фильтрации происходит на сервере, а клиенту передаются только результаты. Фактически мы переместили «центр тяжести» работы с данными ближе к источнику данных. Также было необходимо реализовать стратегию постепенной загрузки. И, конечно, мы оптимизировали SQL-запросы. Мы переписали генератор запросов, чтобы он учитывал специфику крупных массивов данных. В некоторых случаях удалось заменить несколько последовательных запросов одним более сложным, но гораздо более эффективным. Особое внимание мы уделили оптимизации индексов и плана выполнения запросов.

Также мы разработали специализированный компонент для табличного представления данных, способный эффективно обрабатывать и отображать большие объемы информации. Результатом этих изменений стало не просто десятикратное улучшение времени загрузки крупных отчетов, но и значительное повышение отзывчивости интерфейса при работе с ними. Это была ключевая инновация, позволившая Wrike выйти на рынок корпоративных клиентов.

— Вы были частью двух значительных историй успеха — приобретения Wrike компанией Citrix за 2,25 миллиарда долларов и роста Metabase до более чем 41 000 звезд на GitHub и многомиллионной аудитории. Какие общие факторы вы видите в обеих компаниях, которые способствовали их успеху на высококонкурентных рынках?

— Прежде всего, это глубокое понимание пользовательских проблем и умение их решать. Обе компании не просто создавали продукты с набором функций, а фокусировались на конкретных болевых точках пользователей. Второй важный фактор — техническое совершенство. И Wrike, и Metabase уделяли огромное внимание производительности и масштабируемости своих решений. Это не просто теоретический подход — мы регулярно тестировали систему в экстремальных условиях с объемами данных, значительно превышающими типичные. Это позволяло нам уверенно работать с крупнейшими клиентами, что критично для завоевания корпоративного рынка.

Также повлияла и культура итеративных улучшений. Обе компании постоянно развивали свои продукты, основываясь на обратной связи от пользователей. Во всем этом было важно соблюдать баланс между инновациями и стабильностью. Обе компании умели находить золотую середину между внедрением новых технологий и сохранением стабильной работы основных функций. Мы не гнались за модными технологиями ради них самих, но и не боялись радикальных изменений, когда они давали существенные преимущества.

Думаю, подводя итог, можно сказать, что обе компании успешно адаптировались к изменяющимся рыночным условиям. Wrike эволюционировал от простого инструмента управления задачами до комплексной платформы управления работой для предприятий. Metabase из технически ориентированного инструмента превратился в решение, доступное широкому кругу бизнес-пользователей. Эта способность переосмысливать свое место на рынке и адаптироваться к новым возможностям, сохраняя при этом верность основным ценностям, на мой взгляд, была решающей для долгосрочного успеха.

— Помимо повседневной работы, вы также активны в технологическом сообществе, выступая на конференциях, таких как HolyJS, и работая судьей на хакатонах, таких как LocalDawn, X-Raptors и Rapid Rebuild. Как вы считаете, насколько важны обмен знаниями и вовлечение в сообщество для профессионалов в области технологий?

— Активное участие в технологическом сообществе — это важная составляющая профессионального развития. Технологическое сообщество — это мощный катализатор инноваций. Когда специалисты из разных компаний и с разным опытом обсуждают проблемы и решения, часто рождаются идеи, которые невозможно было бы придумать в изоляции внутри одной команды. Но также это и механизм распространения передового опыта. Многие компании сталкиваются с похожими техническими вызовами, и нет необходимости каждой заново изобретать колесо. Выступая на конференции HolyJS, я не только поделился своим опытом разработки Embedding SDK для Metabase, но и узнал о том, как другие компании решали аналогичные проблемы масштабирования и интеграции.

Особенно ценны специализированные мероприятия, такие как хакатон LocalDawn, который фокусировался на офлайн-технологиях. Такая узкая специализация позволяет погрузиться в конкретную тему гораздо глубже, чем это возможно на общих мероприятиях. Работая судьей, я был впечатлен инновационными подходами к локальным базам данных, синхронизации и даже запуску языковых моделей полностью на стороне клиента. Кроме того, работа с сообществом — это отличный способ оставаться в курсе новейших тенденций. Технологии развиваются настолько быстро, что ни одна компания не может в полной мере отслеживать все значимые изменения самостоятельно. Общение с коллегами из разных компаний помогает быстрее узнавать о новых инструментах и подходах. Наконец, это способ отдать должное сообществу, которое в значительной мере сделало возможным мой собственный профессиональный рост. Большинство из нас многому научились благодаря открытым материалам, созданным другими разработчиками. Делясь своими знаниями на конференциях или выступая в качестве наставника для молодых специалистов, я чувствую, что участвую в поддержании этой ценной экосистемы обмена знаниями.

— Глядя в будущее, какие новые технологии или подходы, по вашему мнению, наиболее значительно повлияют на то, как мы взаимодействуем с данными и анализируем их в ближайшие пять лет?

— В ближайшие пять лет нас ожидают значительные перемены в области анализа данных, которые сделают его более мощным и доступным для широкого круга пользователей.

Прежде всего, мы увидим, как аналитика становится более демократичной благодаря внедрению естественно-языковых интерфейсов. Чтобы извлечь ценные знания из данных, традиционно требовались специальные навыки: знание SQL, понимание структуры баз данных и умение работать с инструментами визуализации. Однако системы, основанные на искусственном интеллекте, такие как наш Metabot, коренным образом меняют эту ситуацию. В будущем пользователи смогут задавать сложные аналитические вопросы на естественном языке и получать не только ответы, но и объяснения, визуализации и рекомендации по дальнейшему анализу.

Еще одним важным направлением станет проактивная аналитика. Вместо того чтобы ждать, пока пользователь задаст вопрос, системы будут самостоятельно выявлять значимые паттерны и аномалии в данных и привлекать к ним внимание. Представьте, что вместо ежедневного просмотра дашбордов вы получаете уведомление: «Конверсия в сегменте X снизилась на 15% за последние 24 часа, и это связано с изменениями Y и Z». Такой подход превращает аналитику из пассивного инструмента для проверки гипотез в активного помощника, который выявляет скрытые проблемы и открывает новые возможности.

Также будет развиваться федеративный анализ данных. Сегодня компании сталкиваются с проблемой «силосов данных» — информация разрознена по множеству систем и баз данных, что затрудняет комплексный анализ. В будущем мы увидим интеллектуальные системы, способные объединять и анализировать данные из разнородных источников без необходимости их физического объединения с автоматическим разрешением семантических различий между системами. Еще одним важным трендом станет объяснимая аналитика. По мере того, как алгоритмы становятся более сложными, растет потребность в понимании того, как именно были получены те или иные выводы. Будущие аналитические системы будут не только предоставлять результаты, но и детально объяснять ход рассуждений, который привел к этим выводам, делая процесс анализа прозрачным и понятным.

Все эти изменения в совокупности приведут к тому, что аналитика станет неотъемлемой частью рабочего процесса для гораздо более широкого круга специалистов, не требуя от них специальных технических навыков. А профессиональные аналитики смогут сосредоточиться на более сложных и творческих аспектах работы с данными, оставив рутинные задачи автоматизированным системам. В конечном итоге, цель всех этих инноваций — превратить данные из пассивного актива в активного помощника при принятии решений на всех уровнях организации.

Также по теме

Мнения

Отец китайских электрокаров: "Будущее - за водородным транспортом"

Мнения

Специалист по робоэтике предлагает относиться к ИИ как к животным

Мнения

Ян Лекун: "От разработчиков ИИ сегодня зависит будущее"

Мнения

Google: "Данные - это не новая нефть, а новый солнечный свет"

Новости СМИ2