Data Lakehouses: новая модель хранения данных
13 мая 2022 г.Данные — самый ценный ресурс в мире. Однако, как и любой другой ресурс, он не представляет никакой ценности сам по себе. Предприятия должны использовать его должным образом, чтобы извлечь из него выгоду, а это означает выбор наилучшего способа его хранения.
Мир создает, фиксирует, копирует и потребляет десятки зеттабайт данных в год. Обработка такого большого количества данных, особенно с необходимой организацией для глубокого анализа, является сложной задачей. Специалисты по данным обратились за помощью к хранилищам данных и озерам, но теперь появилась новая модель: хранилище данных.
Краткая история архитектуры данных
Чтобы понять хранилища данных, нужно понять модели, которые были до них. По мере роста объема и сложности данных компаний они быстро поняли, что им необходимо организовать их, чтобы быстрее и точнее находить то, что им нужно. Хранилища данных были решением.
Хранилища стандартизируют и форматируют входящие данные для их хранения в консолидированной структурированной среде. Это устраняет избыточность, упрощает поиск и анализ данных и улучшает понимание данных, предлагая более надежный единый источник достоверной информации. По мере того как набирали обороты более сложные процессы, такие как машинное обучение, ограничения складов становились все более тревожными.
Озера данных появились вскоре после премьеры Apache Hadoop в 2008 г., предлагает более гибкий вариант. В отличие от хранилищ, озера хранят данные в исходном, неструктурированном формате, что удешевляет и упрощает масштабирование и хранение больших объемов информации. Однако эта гибкость и доступность достигаются за счет потери скорости и надежности складов.
Озерный дом данных
Data Lakehouses предлагают лучшее из обоих миров. Они стремятся обеспечить гибкость, экономичность и поддержку сложных процессов анализа озер данных, сохраняя при этом организационные преимущества хранилищ.
Поначалу домики у озера больше напоминают озера данных. Подобно озерам, они принимают данные в необработанном формате, сохраняя структурированную, полуструктурированную и неструктурированную информацию в едином обширном хранилище.
В отличие от озер данных, в озерных домах используется один уровень хранения, который предлагает поддержку индексации, кэширования, метаданных и уплотнения, через которые проходят данные, прежде чем они попадут к конкретным конечным пользователям.
Когда компаниям необходимо использовать свои данные, они передаются от уровня хранения через уровень вычислений для организации, а затем через открытые API-интерфейсы для различных вариантов использования. В результате они удовлетворяют потребность как в гибкости, так и в организации.
Преимущества Data Lakehouses
Сейчас более 90% корпоративных данных находится в озерах данных. Однако вскоре это может измениться, поскольку все больше организаций осознают преимущества озерных домов данных по сравнению со старыми архитектурами. Вот некоторые из наиболее значительных из этих преимуществ.
Экономичность
Хранилища данных могут быстро стать дорогими во внедрении, так как это требует значительного времени и вычислительных ресурсов. ресурсов для организации больших наборов данных перед их сохранением. Озера предлагают более доступную альтернативу, но они теряют видимость и надежность складов. Домики у озера считаются наиболее экономичным решением.
Поскольку данные остаются в озере во время хранения, домики на озере предлагают недорогую масштабируемость по сравнению с обычными озерами. Когда компаниям понадобятся их данные, Lakehouse пропустит их через организационные инструменты, чтобы обеспечить необходимую прозрачность и согласованность. Организациям больше не нужно жертвовать производительностью ради доступности.
Из-за этого организационного уровня реализация домиков у озера стоит дороже, чем у озер. Тем не менее, они не такие дорогие, как склады, и их надежность может привести к усовершенствованию процессов, которые компенсируют дополнительные расходы. В целом, они предлагают лучший баланс между производительностью и стоимостью.
Оптимизированная производительность
Озера данных также извлекают выгоду из преимуществ производительности как озер, так и хранилищ. Склады обеспечивают гораздо более быстрый и временами более точный анализ благодаря их стандартизации и организации. Озера, с другой стороны, позволяют использовать более продвинутые процессы аналитики.
Озера данных обеспечивают и то, и другое и включают в себя несколько полезных функций оптимизации. Уровень вычислений предлагает поддержку, такую как кэширование, пропуск данных и кластеризацию, чтобы помочь уточнить данные по мере необходимости для конкретного варианта использования. Поскольку данные не проходят через этот организационный уровень до тех пор, пока их не использует бизнес, методы могут соответствовать каждому конечному использованию.
Многие организации пытаются сбалансировать преимущества озер и складов, используя их сочетание, но это создает избыточность. Lakehouses сочетают в себе свои преимущества, сохраняя при этом единый репозиторий, устраняя избыточность. В результате они также превосходят гибридные структуры.
Гибкость
Точно так же хранилища данных предлагают более гибкий подход к архитектуре данных. В Lakehouses используются открытые форматы, такие как Parquet и ORC, а также открытые API с использованием таких языков, как SQL, R и Python. Это делает их совместимыми со многими другими приложениями, интеграциями и процессами.
Хранилища идеально подходят для приложений бизнес-аналитики (BI), а озера лучше подходят для прямого доступа к большим наборам данных для таких процессов, как машинное обучение. Поскольку в домиках на озере есть озеро данных и организационный уровень, они могут удовлетворить конкретные потребности обоих. Независимо от того, через какие типы приложений предприятия обрабатывают свои данные, Lakehouse может их поддерживать.
В недавнем исследовании 68% респондентов считал, что домики у озера предлагают лучшее универсальное решение после того, как эксперты взвесили все за и против каждой модели. Интересно, что до обсуждения так считали только 37%. Как только становится ясно, как работают домики у озера, становится более очевидным, что они являются наиболее гибким решением для хранения данных.
Упрощенная безопасность и управление
Безопасность и соответствие нормативным требованиям, а также растущие опасения по поводу любых операций с данными в рамках бизнеса. На самом деле, безопасность и видимость составляют четыре самых больших препятствия на пути миграции в облако с которыми компании сталкиваются сегодня. Организация и гибкость хранилища данных упрощают адаптацию к этим изменяющимся требованиям безопасности и соответствия требованиям.
Вычислительный уровень Lakehouses может применять механизмы аудита и безопасности ко всему озеру данных, удовлетворяя строгие потребности, несмотря на рост неструктурированных данных. Точно так же их поддержка транзакций атомарности, согласованности, надежности и долговечности (ACID) обеспечивает целостность данных в соответствии с нормативными требованиями.
Поскольку хранилища данных обеспечивают большую видимость и контроль над обширными репозиториями, они упрощают поиск и устранение аномалий. Уровень вычислений также затрудняет влияние некачественных или отравленных данных на конечное использование.
Архитектура данных развивается
Озера данных фактически заменили хранилища, но и эти архитектуры устаревают. Точно так же, как озера помогли удовлетворить растущие потребности в гибкости и затратах, домики на озере помогут удовлетворить требования современного бизнеса к безопасности, контролю и надежности.
Озера данных все еще новы, поэтому, вероятно, пройдет некоторое время, прежде чем они получат широкое распространение. Несмотря на их новизну, первые признаки являются многообещающими. Эти новые модели могут предоставить предприятиям лучшее из обоих миров для хранения данных.
Оригинал