9 трендов данных, которые вы увидите в 2023 году

9 трендов данных, которые вы увидите в 2023 году

11 января 2023 г.

В 2022 году объем данных вырос как на дрожжах. Была консолидация вокруг аналитических хранилищ данных, таких как Snowflake и Redshift, инструментов SQL, таких как dbt, и инструментов для создания информационных панелей, таких как Looker и Mode.

В целом особое внимание уделялось управлению, прозрачности и качеству данных.

Что нас ждет в этом году? Вот 9 основных вещей, которые наша команда экспертов по данным ожидает увидеть в 2023 году.

1. Инженерия надежности данных никуда не денется

Инженерия надежности данных (DRE) помогает согласовать процессы, инструменты и людей для обеспечения надежности данных, таких как информационные панели и модели машинного обучения. . Это термин, вдохновленный Google Site Reliability Engineering (SRE).

Как правило, DRE выполняется инженерами по данным, учеными по данным и инженерами-аналитиками. Исторически у этих ролей не было стандартных инструментов и процессов, на которые полагаются команды DevOps и инженеров.

Вот почему работа над надежностью данных включает в себя выборочные проверки, ночные засыпки и ручной перенос некоторого мониторинга SQL в Grafana.

Команды, инвестирующие в DRE, работают над созданием масштабируемых повторяемых процессов, таких как управление инцидентами и мониторинг качества. Они делают это, заимствуя SRE и DevOps.

2. Команды обработки данных — это команды по разработке новых продуктов (с точки зрения того, как они работают)

Обычно группы обработки данных работают так же, как и ИТ-организации. Приходит запрос или вопрос, и приходит ответ. Это означает, что команды данных в значительной степени реагируют. Но такое положение дел вызывает чувство перегруженности, а разовые просьбы засоряют повседневную жизнь.

В этом году команды, занимающиеся инновационными данными, перейдут на другую модель. Вместо того, чтобы обслуживать разовые запросы, они будут активно работать над принятием лучших бизнес-решений с помощью информационных продуктов.

Благодаря этим изменениям группы обработки данных будут иметь более четкое видение продукта, более глубокое понимание клиентов, более высокий доход и лучшие бизнес-результаты.

Они соберут междисциплинарную команду, состоящую из инженеров, аналитиков, дизайнеров и технических писателей, и будут продвигать «функции», которые они создают, точно так же, как это делали бы команды разработчиков.

Что мы подразумеваем под «продуктом данных»? Это может быть любая информация, которую люди используют для принятия решений. Сюда могут входить любые данные, которые передаются между людьми, системами и процессами, любой анализ, проводимый командами, и любые инструменты аналитики.

3. Управление данными является приоритетом (как и внутреннее управление)

Управление данными исторически не было приоритетом для многих команд. Управление данными охватывает такие вещи, как обнаружение активов данных, историю и происхождение данных, а также общий контекст, связанный с данными и статусом таблиц.

По мере того как модели данных становятся все более сложными, управление данными больше нельзя игнорировать. Такие компании, как LinkedIn, Lyft, Airbnb, Spotify, Netflix и Uber, создали собственные внутренние решения.

И вполне вероятно, что за ними последуют другие модели, повторяющие модели с открытым исходным кодом. В этом году мы прогнозируем более строгое и тщательное управление данными, чем когда-либо прежде.

4. Контракты данных никуда не денутся

Контракты на данные представляют собой соглашения, подобные API, между производителями и потребителями данных. Они помогают командам экспортировать высококачественные надежные данные.

С контрактами данных владельцы сервисов решают, какие данные будут доступны потребителям. Методично они предоставляют его в структурированном виде (аналогично конечной точке API).

В результате ответственность за качество данных переходит от специалиста по обработке и анализу данных к ответственности инженера-программиста.

Возьмем, к примеру, приложение для совместного использования. Производственные микросервисы записывают информацию о каждой поездке в таблицы базы данных «поездки», «платежи», «клиенты» и «запрос на поездку». По мере того, как бизнес проводит акции и расширяется, схемы развиваются.

Без вмешательства все эти производственные таблицы попадают в хранилище данных. Любой инженер по машинному обучению или специалист по данным, работающий с аналогичными таблицами, должен будет во всем разобраться и переписать преобразования данных поверх изменений схемы.

Парадигма меняется с контрактами данных. В этом случае аналитики данных и ученые не используют почти необработанные таблицы в хранилищах данных. Вместо этого они используют API, который уже обработал данные для создания удобочитаемого события, такого как «запрос на поездку».

Будут прикреплены метаданные запроса на поездку (цены, повышенные цены да/нет, промо, платежные реквизиты и отзывы). В 2023 году больше команд будут адаптировать контракты данных, чтобы более эффективно использовать данные.

5. Инфраструктура реального времени разрастается

В настоящее время большая часть инфраструктуры данных использует пакетные операции (например, опрос и планирование заданий). В 2023 году компании будут создавать инфраструктуру для потоковой передачи/реального времени (например, для автоматизации процессов или оперативного принятия решений).

Snowflake возглавила эту тенденцию благодаря функциональным возможностям потоков, и другие крупные хранилища данных также движутся в этом направлении. Например, Bigquery и Redshift предлагают материализованные представления.

Есть также стартапы, строящиеся в космосе. Meroxa предлагает сбор измененных данных из реляционных хранилищ данных и веб-перехватчиков. Materialize — это совместимое с Postgres хранилище данных, изначально поддерживающее материализованные представления почти в реальном времени.

6. В машинном обучении больше непрерывного обучения

Непрерывное обучение — это процесс итерации моделей машинного обучения после их развертывания в рабочей среде.

Производственные данные помогают улучшать модели по мере их изменения в реальном мире. Сегодня большинство моделей машинного обучения переобучаются на разовой основе. Непрерывное обучение, с другой стороны, периодически переобучает модели или переобучает их после определенных триггеров (например, снижения производительности).

В 2023 году непрерывное обучение будет расширяться, поскольку машинное обучение перенимает лучшие методы наблюдения за данными. Будет усилен мониторинг таблиц в хранилищах данных, а также непосредственных результатов и отзывов пользователей.

7. Экспорт сервисов SaaS напрямую в базы данных

Эта часть ETL, связанная с извлечением данных, обрабатывается посредническими службами, такими как Fivetran и Stitch. Они извлекают данные из SaaS API (Salesforce, Shopify, LinkedIn, Zendesk) и помещают их в хранилище данных.

В 2023 году некоторые приложения SaaS изменят текущую модель, установив прямое партнерство с хранилищами данных для предоставления данных своих услуг. В результате приложения SaaS будут более усердно сообщать партнерам по данным об изменениях API.

Клиенты обнаружат меньше ошибок при извлечении данных и, скорее всего, им придется тратить меньше денег.

8. Хранилища данных вырастут за пределы SQL

Аналитики данных любят SQL и в основном используют его для написания преобразований в хранилищах данных. Но SQL не идеален для обработки всех данных. Например, обучение модели машинного обучения и другая сложная логика преобразования легче выполняются с помощью Python.

Хранилища данных начнут поддерживать больше языков (например, Python) в своем механизме обработки.

Например, Snowflake недавно анонсировала Snowpark, API, который позволяет создавать приложения для обработки данных прямо в Snowflake, не перемещая данные в систему. где работает код приложения.

9. Команды будут использовать Т-образный мониторинг

Т-образный мониторинг отслеживает основные параметры всех ваших данных и применяет более глубокий уровень мониторинга только к сверхкритические наборы данных, например те, которые используются для финансового планирования, моделей машинного обучения или панелей управления на уровне руководителей.

Т-образный мониторинг — это философия, которая помогает командам избежать проблемы с наблюдаемостью больших данных: плохих предупреждений. По мере того, как группы обработки данных учатся расставлять приоритеты в мониторинге и сопоставлять его непосредственно с бизнес-результатами, Т-образный мониторинг станет удобным инструментом.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE