Вот что нужно знать об Apache Cassandra 5.0
17 апреля 2024 г.Apache Cassandra — чрезвычайно популярная распределенная система управления базами данных NoSQL с открытым исходным кодом — приближается к общедоступной версии 5.0 (Бета-версия 5.0 уже доступна).
Независимо от того, являетесь ли вы существующим пользователем Cassandra или рассматриваете возможность перехода на базу данных с открытым исходным кодом с выпуском этой новой версии, версия 5.0 может вас порадовать. Я поговорил с Мо Ансари, менеджером по продукту компании Instaclustr by NetApp, о том, что разработчикам, инженерам, администраторам баз данных и другим пользователям следует знать о Cassandra. 5.0 — от обновлений баз данных до новых вариантов использования и поддержки сообщества с открытым исходным кодом.
Мо особенно хорошо знает Cassandra (Instaclustr уже давно имеет управляемую платформу на основе версии базы данных с полностью открытым исходным кодом, над которой работает Мо).
Вот что Мо сказал о Кассандре 5.0:
Cassandra 5.0 обещает повысить производительность и масштабируемость базы данных. Какие конкретные оптимизации или архитектурные изменения были внесены для достижения этой цели?
В Cassandra 5.0 добавлены преимущества Memtables и SSTables на основе дерева префиксов. Это означает, что новая версия базы данных NoSQL с открытым исходным кодом предлагает значительный потенциал для повышения производительности базы данных и оптимизации памяти.
Производительность Cassandra при операциях чтения и модификации (а также ее способность правильно определять размер структур данных) выигрывает от этих форматов хранения, которые используют попытки и сравнимые по байтам представления ключей базы данных.
Накладные расходы на управление памятью и сбор мусора также сталкиваются с меньшими трудностями при использовании Trie Memtables и Trie-индексированных SSTable, что дает еще больше преимуществ для пользователей Cassandra (особенно тех, кто использует базу данных в большом масштабе).
Помимо производительности, есть ли в Cassandra 5.0 другие изменения, которые должны порадовать разработчиков?
Разработчикам захочется воспользоваться векторной поддержкой Cassandra 5.0, включая векторный поиск для поиска контента в больших наборах данных. Они также могут использовать новые векторные функции CQL и новый тип векторных данных, предназначенный для сохранения и извлечения векторов внедрения. Благодаря этим улучшениям Cassandra 5.0 хорошо позиционируется как технология уровня данных для поддержки разработки приложений AI/ML. Модели машинного обучения функционируют путем сравнения сходств между данными и помещения связей данных в контекст.
Векторы встраивания обеспечивают сравнение сходства, предлагая массивы чисел с плавающей запятой, представляющие, насколько похожи отдельные объекты друг на друга. Благодаря Cassandra 5.0 у разработчиков теперь есть мощная база данных (с открытым исходным кодом) с той конкретной функциональностью, которая так важна для приложений AI/ML.
Разработчики также должны быть в восторге от индексации с подключением к хранилищу, которая делает вторичные индексы гораздо более удобными и эффективными. В таблице базы данных Cassandra разработчики теперь могут легко создавать один или несколько вторичных индексов, каждый из которых основан на одном выбранном ими столбце. Результатом является масштабируемое и глобально распределенное индексирование с непревзойденной пропускной способностью поиска (полезно при векторном поиске), модульной расширяемостью (также продемонстрированной векторным поиском) и потрясающими функциями индексирования, которые фиксируют семантику через запросы и контент (включая большие документы). и изображения).
И последнее, но не менее важное: разработчикам, использующим Cassandra 5.0, понравится возможность создавать свои собственные пользовательские функции и использовать ряд полезных новых встроенных функций агрегирования и математических вычислений CQL, доступных в новой версии.
Как изменился опыт разработчиков (если изменился) с появлением Cassandra 5.0?
Cassandra вносит значительные улучшения в работу разработчиков. Функции новой версии открывают двери для огромного количества вариантов использования и уравновешивают опыт разработчиков. Новая версия ориентирована на простоту использования, производительность и безопасность и включает такие функции, как индексы с подключением к хранилищу, которые делают запросы к столбцам, не являющимся первичными ключами, более эффективными. Это снижает сложность и накладные расходы, связанные с вторичными индексами.
Кроме того, ожидается, что новая версия будет поддерживать транзакции ACID вместе с версией 5.1, что привнесет в Cassandra функциональность, подобную SQL, что сделает ее более доступной для разработчиков, знакомых с реляционными базами данных. Кроме того, в новой версии больше ограждений и улучшенный инструментарий, включая новую виртуальную таблицу для просмотра системных показателей, что поможет в процессе разработки.
В целом, Cassandra 5.0 оснащена функциями, которые позволят разработчикам работать быстрее, создавать более эффективные запросы и управлять данными с повышенной безопасностью и контролем!
Ожидаете ли вы, что варианты использования Cassandra изменятся или будут развиваться в зависимости от того, что включено в версию 5.0?
Да, благодаря новому векторному типу данных и индексам, привязанным к хранилищу, повышающим производительность использования векторов, Apache Cassandra позиционирует себя как конкурент на рынке ИИ. За прошедшие годы исключительная пропускная способность записи и способность Cassandra обрабатывать большие объемы данных сделали ее идеальной для нескольких вариантов использования и приложений, таких как масштабируемые веб-приложения, системы обмена сообщениями, а также системы регистрации событий и мониторинга.
Однако Cassandra 5.0 существенно изменит ситуацию. Помимо всех вариантов использования, которые Cassandra поддерживала и подходила в прошлом, версия 5.0 расширит ее применимость для более сложных, транзакционных и аналитических приложений, устраняя разрыв между гибкостью NoSQL и строгими требованиями современных приложений с интенсивным использованием данных.
Я вижу несколько новых вариантов использования, таких как аналитика и машинное обучение, нишевые финансовые услуги, требующие транзакций ACID, приложения, требующие сложных возможностей запросов и т. д. Как это называет проект Apache Cassandra, «движение к будущему, основанному на искусственном интеллекте».
Как Cassandra 5.0 была разработана для поддержки этих моделей развертывания, учитывая растущее распространение облачных и контейнерных сред?
Apache Cassandra всегда разрабатывалась с учетом распределенных и отказоустойчивых вычислений и масштабирования. Это всегда был хороший выбор для облачных рабочих нагрузок. Несмотря на то, что Cassandra 5.0 не представляет конкретных функций под названием «облачная среда», она продолжает поддерживать и совершенствовать развертывания в облачных и контейнерных средах посредством своих масштабируемых, отказоустойчивых и управляемых сообществом проектов.
Функции, включенные в выпуск версии 4.1, уже проложили путь к более облачным технологиям. -родное будущее Кассандры. Проект K8ssandra — еще один замечательный пример приверженности облачным технологиям. -родное будущее.
Любой новый выпуск всегда требует обучения. Как вы оцениваете процесс внедрения Cassandra 5.0 и какой совет вы бы дали разработчикам, желающим перейти?
Переход на Cassandra 5.0 требует обучения, но он должен быть максимально плавным. Я ожидаю постепенного внедрения по мере того, как разработчики знакомятся с новыми функциями и улучшениями. Я ожидаю, что внедрение будет довольно быстрым в средах разработки и тестирования; однако в производственных средах это будет происходить постепенно.
Учитывая акцент на снижении затрат и готовности ИИ, существует гораздо больше причин, вариантов использования, мотиваций и других факторов для внедрения. Судя по нескольким утилитам, я предполагаю, что Apache Cassandra станет предпочтительным выбором для рабочих нагрузок ИИ.
Тем, кто хочет мигрировать, я советую использовать обширные ресурсы, доступные на сайте Веб-сайт Apache, включая документацию и форумы сообщества. Planet Cassandra – отличное место для изучения вариантов использования. Я бы также посоветовал разработчикам участвовать в сообществе для обмена идеями и передовым опытом через списки рассылки, общие собрания проектов и другие мероприятия, такие как встречи участников.
У Cassandra большое и активное сообщество разработчиков программного обеспечения с открытым исходным кодом. Как сообщество участвовало в разработке версии 5.0?
У Apache Cassandra есть большая и яркая сообщество разработчиков ПО с открытым исходным кодом, сыгравшее решающую роль в разработке версии 5.0. Участники активно участвовали в предложении новых функций и улучшении существующих на основе реальных сценариев использования и будущих потребностей. Отзывы собирались по различным каналам, таким как списки рассылки, заявки Jira и предложения по улучшению Cassandra (CEP), и они сыграли важную роль в формировании выпуска для удовлетворения растущих потребностей пользователей.
Сообщество активно участвует в разработке любых других функций, которые в настоящее время находятся на стадии разработки. и принесет Кассандре еще много преимуществ в будущем.
Оригинал