Почему многие профессии в области науки о данных на самом деле являются инженерией данных
5 ноября 2024 г.В наши дни каждая компания, похоже, стремится заполнить вакансию «ученого по данным», обещая захватывающие возможности работы с алгоритмами машинного обучения, прогностическими моделями и фреймворками глубокого обучения. Однако для многих профессионалов, которые занимают эти должности, реальность не совсем соответствует привлекательности. Вместо того чтобы с головой окунуться в ИИ или моделирование сложных наборов данных, они оказываются по колено в извлечении, очистке и подготовке данных. Добро пожаловать в мир инжиниринга данных — область, в которую многие не осознавали, что записались.
Это явление возникает из-за фундаментального непонимания компаниями того, что им на самом деле нужно. Они публикуют списки вакансий для «специалистов по данным», когда основная часть их работы заключается в очистке данных и обеспечении инфраструктуры для их обработки — по сути, это задачи по инжинирингу данных. В результате профессионалы, нанятые в качестве специалистов по данным, в конечном итоге выполняют тяжелую работу, которую они не ожидали: обрабатывают беспорядочные данные, перемещают их между платформами и готовят к анализу. Разочарование неизбежно наступает для тех, кто рассчитывал проводить свои дни за созданием моделей машинного обучения, а не за написанием SQL-запросов и настройкой конвейеров.
Для начинающих инженеров по данным это скрытая возможность. В то время как рынок труда полон компаний, ищущих специалистов по данным, многим из этих организаций инженер по данным нужен гораздо больше, чем они думают. Эти две области требуют пересекающихся навыков, особенно на ранних этапах — программирования, управления базами данных и некоторых базовых статистических знаний. Однако задачи и карьерные пути быстро расходятся. Специалисты по данным сосредоточены на получении информации и прогнозировании, в то время как инженеры по данным обеспечивают надежность и устойчивость экосистемы данных. Опытный профессионал может начать с должности специалиста по данным и перейти к карьере инженера по данным, просто поднявшись наверх и приступив к решению задач, которые другие считают ниже своих.
Специалисты по данным, особенно те, кто имеет высокий академический уровень, частосчитают очистку и подготовку данных утомительным занятием. Для них это «скучная» сторона работы — рутинная работа, которая мешает более гламурным задачам, таким как построение прогностических моделей или применение передовых алгоритмов. Однако без хорошо структурированных данных эти алгоритмы бесполезны. Инженеры по данным хорошо это знают и принимают вызов создания фреймворков, на которые полагаются специалисты по данным. От автоматизации извлечения и преобразования данных до построения конвейеров, которые предоставляют чистые, хорошо организованные наборы данных, эти задачи являются хлебом и маслом инженерии данных.
В то время как некоторые специалисты по данным изо всех сил пытаются извлечь смысл из запутанных наборов данных, специалисты по данным заняты созданием масштабируемых систем, которые сэкономят время и нервы в дальнейшем. Вместо того чтобы бороться с файлами CSV и жаловаться на SQL, начинающий специалист по данным использует эти инструменты в своих интересах. Они оптимизируют процессы, автоматизируют задачи по подготовке данных и внедряют надежные конвейеры, которые позволяют обновлять данные в режиме реального времени или по расписанию. Они не просто перемещают данные; они создают основу экосистемы данных. К тому времени, как специалисты по данным заканчивают ручную подготовку своих наборов данных, специалист по данным уже автоматизировал процесс, устраняя повторяющуюся работу и освобождая время для более стратегических задач.
Этот разрыв между названиями должностей и должностными функциями может создавать трения в командах, при этом некоторые специалисты по данным жалуются на отсутствие «реальной» работы в области науки о данных в своих ролях. Но для инженеров по данным это то, где они процветают. Пока их коллеги спорят, какая структура машинного обучения лучше, инженеры по данным заняты внедрением решений производственного уровня, выходя за рамки специального анализа, чтобы создавать системы, которые постоянно приносят пользу. Они — невоспетые герои мира данных, тихо обеспечивающие бесперебойную передачу данных, эффективную генерацию идей и бесперебойную работу организации.
Более того, инженеры по данным занимают уникальную позицию, позволяющую им преодолеть разрыв между специалистами по данным и другими бизнес-подразделениями. После завершения «сложной части» подготовки данных они могут создавать доступные, удобные для пользователя приложения для нетехнических заинтересованных лиц. Это могут быть панели мониторинга, инструменты визуализации или веб-платформы, которые демократизируют понимание данных в организации. Пока специалисты по данным все еще шлифуют свои скрипты Python, инженер по данным уже создал что-то масштабируемое, устойчивое и пригодное к использованию.
В конечном итоге эта динамика раскрывает более глубокую истину: многие компаниине нуждаются в специалистах по данным так срочно, как они думают. Им действительно нужны инженеры по данным, которые могут гарантировать, что их данные структурированы, чисты и доступны. Инсайты, прогнозы и модели, которые создают специалисты по данным, настолько хороши, насколько хороша лежащая в их основе инфраструктура данных. Поэтому, хотя некоторые могут продолжать спорить о том, кто может считаться «настоящим» специалистом по данным, инженеры по данным знают, что дело не в названии, а в том, чтобы выполнять работу.
Если вы начинающий инженер данных, этот путь может стать для вас золотой возможностью. Вступая на эти неправильно классифицированные должности в науке о данных, вы можете спокойно построить карьеру вокруг решения проблем, которые другие не хотят трогать. Вы можете автоматизировать рабочие процессы, оптимизировать процессы и гарантировать, что инфраструктура данных организации является надежной и масштабируемой. Пока ваши коллеги сосредоточены на настройке своих моделей, вы будете создавать системы, которые приносят реальную ценность компании, и вы, скорее всего, останетесь незамеченными — пока не станет ясно, насколько организация полагается на проделанную вами работу.
В конце концов, именно инженеры данных делают науку о данных возможной. И для тех, кто готов принять вызов, награда может быть существенной — не только с точки зрения карьерного роста, но и с точки зрения осознания того, что именно вы тихо поддерживаете работу машины, управляемой данными.
Обо мне: 25+ лет опыта работы в сфере ИТ, сочетающий данные, ИИ, управление рисками, стратегию и образование. Четырехкратный победитель мирового хакатона и социальный вклад от адвоката данных. В настоящее время работаю над запуском рабочей силы в сфере ИИ на Филиппинах. Узнайте больше обо мне здесь:https://docligot.com
Оригинал