В настоящее время мы переживаем возрождение программного обеспечения с открытым исходным кодом
23 марта 2022 г.В прошлом году мы наблюдали взрыв стартапов в платформы данных без кода и с низким кодом, а также в проекты с открытым исходным кодом в пространстве данных, которые в первую очередь определяют современный стек данных. Пришло время немного углубиться в тему и понять динамику на этих рынках. В этой статье я освещаю причины этих бумов и хотел бы привлечь внимание к проблемам рынков, чтобы в конечном итоге выразить тезис — Сочтены ли последние дни классической модели SaaS в пространстве данных?
Сложность проектов данных
8 лет назад компании начали задумываться о том, как принимать более эффективные решения для бизнеса, используя собранные данные. В то время я начинал свою карьеру в качестве специалиста по данным и впервые услышал о нехватке специалистов по данным и разработчиков программного обеспечения. Сегодня, в 2022 году, эта картина стала еще более драматичной. Спрос на информационные и инженерные рабочие места в два раза превышает абсолютное предложение. Заработная плата специалистов по работе с данными резко возросла, а наука о данных стала «[самой сексуальной работой в мире»] два раза подряд. И требования к разработчикам продолжают расти: новые фреймворки, новые приложения и новые идеи требуют комплексных решений. Два года назад в офисе Rasa в Кройцберге в Берлине один из моих любимых блоггеров сказал мне, что грядет «зима, связанная с наукой о данных». Он имел в виду, что компании были разочарованы тем, что проекты данных редко заканчиваются успехом. По моим наблюдениям, это было вызвано несколькими причинами:
- Менеджеру требуется много времени, чтобы договориться с специалистом по данным и инженером-программистом таким образом, чтобы воплотить бизнес-цели в стратегию данных и проект данных. Петли обратной связи тянулись слишком долго.
- Ожидания были слишком завышены, а сроки были запланированы слишком жестко. К проекту данных нельзя относиться как к обычному программному проекту, который уже достаточно сложен.
- Процесс сбора и очистки данных требует много ресурсов.
Затем на панели Venturebeat в комнату была выброшена часто цитируемая цифра: 85% проектов данных терпят неудачу. Симптом осадочной зимы науки о данных был налицо.
Возрождение открытого исходного кода во главе с современным стеком данных
В то время как компании немного робели в отношении инвестиций в проекты по науке о данных и бизнес-аналитике, среди разработчиков программного обеспечения появлялись грандиозные решения. GitHub был местом, где рождались большие решения. Безопасное пространство для инженеров с видением. На GitHub незаметно появились одни из самых популярных фреймворков в пространстве данных. Речь идет о: Elastic Search (база данных), Airflow (конвейеры данных), [dbt] (https://github.com/dbt-labs/dbt-core) (преобразования), Meltano (извлечение данных) и совсем недавно Airbyte (извлечение данных). Эти инструменты часто называют модным словом «[современный стек данных] (https://future.a16z.com/emerging-architectures-modern-data-infrastructure/)». Они гибко работают в таком хранилище данных, как Snowflake, их настройка относительно проста, а сервисы можно комбинировать для сопоставления обработки и анализа данных.
Но почему с открытым исходным кодом? Почему Microsoft или другой технологический гигант не владеет современным стеком данных и не использует его бренд? Ответ тривиален, и его реализация изменила мир: проекты данных — самая сложная задача в разработке программного обеспечения. Каждый проект данных — это пограничный случай, независимо от того, является ли бизнес-вопрос одним и тем же. Данные из самых разных источников с разным качеством данных поступают на предприятия с еще большей частотой. Данные должны быть объединены воедино, а методы анализа и интерпретации данных столь же разнообразны, как фауна и флора. Сложное программное обеспечение может быть выполнено только с помощью множества разработчиков с разной квалификацией. Так много разработчиков, что даже технологический гигант не смог бы заложить основу для современного стека данных, не пренебрегая основным бизнесом.
Что современный стек данных изменил для компаний?
Тем временем, что касается бизнеса, все больше и больше компаний внедряют современный стек данных с хранилищем данных в центре бизнес-аналитики (BI). Я очень рад следить за этим развитием, поскольку компании смогли работать с данными бережливо и гибко. Но остается одна проблема: в компаниях по-прежнему слишком мало разработчиков. А в проектах с данными менеджеры и инженеры по-прежнему не говорят на одном языке. Роль бизнес-аналитика становилась все актуальнее! Посредник между обеими сторонами: BI-аналитик, который понимает основы анализа данных и цель повышения рентабельности инвестиций компании, но не имеет технических навыков кодирования.
В 2021 году появились стартапы с обещанием связывать данные без навыков кодирования, создавать аналитику и продвигать компании вперед в цифровой трансформации и грамотности данных. Стартапы строятся на открытом современном стеке данных и придают ему удобную оболочку. Известно, что они даже рекламируют, что пользовательский интерфейс заменит dbt, Airbyte, Snowflake и Airflow. Однако правда в том, что все эти технологии работают в фоновом режиме с программным обеспечением, которое перепродается по их лицензии. Современный стек данных, который был разработан для свободного доступа, теперь продается клиентам как инструмент SaaS?
Если вы возьмете рыночную капитализацию закрытых решений SaaS вместе и сравните ее на временной оси с рыночной капитализацией решений с открытым исходным кодом, вы увидите, как снижается рыночная прибыль для SaaS. С другой стороны, можно увидеть очень резкий рост для решений с открытым исходным кодом. Ранние компании с открытым исходным кодом, такие как RedHat, databricks или elastic, в настоящее время являются публичными компаниями. OSS Capital формулирует это следующим образом: “ Открытый исходный код поглощает программное обеспечение быстрее, чем программное обеспечение поглощает мир”.
- Каждый вариант использования должен создаваться самой внутренней командой разработчиков. Это означает, что основное внимание может быть сосредоточено только на простых, популярных вариантах использования.
- Продажи осуществляются через торговых представителей и обычный маркетинг. Масштабируемость ограничена.
→ Высокие затраты на продажи и разработку продукта
- Нет адаптации инструмента к индивидуальному варианту использования.
- Высокий эффект блокировки.
- Требуется обучение новых пользователей.
→ Низкая рентабельность для клиента в долгосрочной перспективе
В конце концов, мы видим разочарованного клиента, который использует инструмент, потому что он был куплен один раз, но результаты его не удовлетворяют. Эту проблему можно хорошо проиллюстрировать на примере Airbyte vs. Fivetran. Fivetran появился на рынке 10 лет назад и помогает разработчикам программного обеспечения извлекать данные из одного источника и загружать их в другой источник данных, например, в хранилище данных. Со временем из инструментов SaaS появилось много новых источников данных, таких как инструменты рекламодателя (Facebook), CRM и инструменты отчетности. Сегодня количество SaaS-инструментов превышает 10 000, а при закрытом подходе Fivetran удалось поддерживать и подключать только 1% источников данных. И этот процесс сам по себе является тяжелой задачей, если вы строите его внутри. Это также очень дорого, что также отражается на стоимости подписки. В результате клиенты все больше разочаровывались, платя высокую цену за ограниченное удобство использования. Airbyte признал эту проблему 1,5 года назад. Вместо того чтобы полагаться на закрытый подход, Airbyte приняла бизнес-модель с открытым исходным кодом. Команда Airbyte облегчает разработчикам подключение новых источников данных, которых все еще нет. Airbyte бесплатен в использовании и легко настраивается инженером, который находит репозиторий на GitHub. Таким образом, сложность инструмента продолжает расти независимо с каждым новым вариантом использования и коннектором данных, созданным сообществом. Ключевые возможности для перехода рука об руку с различными бизнес-моделями. Теперь речь идет об обслуживании участников в сообществе, обеспечении легкого доступа и создании всеобъемлющей дорожной карты. Разработка удобного решения для предприятий, не похожего на плагиат.
Успех подтверждает правоту Airbyte: за 1,5 года Airbyte привлекла 16 000 клиентов, а Fivetran — 2 000 клиентов. Конечно, все клиенты Fivetran платят, в то время как у Airbyte оборот меньше, но, учитывая долгосрочное развитие и возрождение открытого исходного кода, это только вопрос времени, когда достаточное количество клиентов заплатит за Airbyte. Популярность, удобные для разработчиков функции и прозрачная модель подписки слишком убедительны для этого. (Изображение Airbyte против Fivetran)
Оставшаяся проблема с открытым исходным кодом
История успеха Airbyte не должна скрывать проблемы с открытым исходным кодом. Средний участник работает всего 3 месяца над проектом с открытым исходным кодом, прежде чем перейти к новому приключению. Все давление ложится на основных участников и инициаторов проекта. Эта проблема стала очевидной с появлением уязвимости Log4j в 2021 году.
Многие крупные компании, включая Apple, Microsoft и Cloudfare, использовали библиотеку с открытым исходным кодом. Когда об уязвимости стало известно, эти компании обратились к команде Log4j, чтобы исправить проблему как можно скорее. Мы говорим здесь о многомиллиардных компаниях, обращаясь к группе идеалистов, некоторые из которых работают в библиотеке только в свободное время.
Понятно, что ситуация выглядит неблагодарной, поскольку большинство компаний не платят за техподдержку и даже не сообщают им заранее, что они использовали библиотеку Log4j для инициаторов. Все громче стал призыв к большей прозрачности и системе монетизации и оценки работы. Это самое большое препятствие, которое должно преодолеть программное обеспечение с открытым исходным кодом. Авторы должны чувствовать, что их ценят, и получать что-то взамен (доллары также не всегда являются ответом). Должны быть разработаны системы, которые дольше удерживают участников в проекте и адекватно оценивают их работу.
Что мы из этого узнаем?
Таким образом, в настоящее время мы переживаем ренессанс программного обеспечения с открытым исходным кодом. Традиционные бизнес-модели SaaS в пространстве данных сложно внедрить, потому что проекты данных слишком сложны, чтобы их можно было решать с помощью проприетарного инструмента для клиентов. Я привел пример платформ данных без кода, которые опираются, в частности, на бизнес-модели SaaS, но основываются на открытом исходном коде, не признавая этого открыто.
Это может привести к проблемам с точки зрения удовлетворенности клиентов. О том, что это проблематично, свидетельствует пример Log4j, а также пример Airbyte/Fivetran. Закрытые инструменты SaaS не только дороги в создании, но и не решают сложных проблем клиентов. Поскольку закрытые инструменты в значительной степени зависят от библиотек с открытым исходным кодом, непрозрачная коммуникация также создает серьезные уязвимости в системе безопасности.
Есть определенное разочарование и напряжение со стороны участников с открытым исходным кодом. Это дает возможность что-то изменить, создать совершенно новые инструменты, бизнес-модели и категории программного обеспечения. И это то, во что Кувала превратился сейчас: Платформа данных без кода с открытым исходным кодом. Попробуйте на Github! У вас другая точка зрения? Или хотели бы обсудить это более подробно? Вы можете легко присоединиться к нашему обсуждению в slack, здесь . Или просто прокомментируйте ниже.
Оригинал