Как путешествие одного специалиста по математике привело к карьере в науке о данных
15 апреля 2023 г.
:::информация Добро пожаловать в подсказки по написанию текстов HackerNoon! Хотели бы вы попробовать ответить на некоторые из этих вопросов? Ссылка на шаблон находится ЗДЕСЬ.
:::
Пожалуйста, сообщите нам свое имя, чем вы сейчас занимаетесь и где работаете:
Меня зовут Мэгги, я специалист по обработке и анализу данных, в настоящее время работаю над внештатными проектами и пишу! Раньше я работал Data Scientist в автомобилестроительной компании. Я проработал там 3 года и стал одним из первых специалистов по данным в команде.
Когда я начал работать в этой команде, это было «в те времена», хотя это было всего несколько лет назад. Столько всего изменилось!
Команда, к которой я присоединился, представляла собой небольшую команду по анализу данных в отделе исследований и разработок инженерного отдела. Это была отличная возможность заняться наукой о данных в среде R&D, потому что все было очень экспериментально, и у нас было много свободы.
Мы собирали данные о наших продуктах: больших, тяжелых, промышленных грузовиках. Это были наши «конечные устройства» в смысле Интернета вещей.
Как новая, разрозненная команда, мы действовали во многом как стартап внутри большой организации, и у этого были свои проблемы. Одним из главных было то, что не было дата-инженеров. Меня наняли отчасти потому, что у меня был опыт системного администратора Linux в центре обработки данных, и я хорошо справлялся с курсом высокопроизводительных вычислений в своей магистерской программе.
Один из моих одноклассников в этом классе тоже был в команде и обратился ко мне за моим резюме. Я был рад получить работу, на которой я мог бы действительно применять навыки работы с большими данными, которые мы мучительно усвоили в школе, т. е. работать с Hadoop, писать программы без сохранения состояния, которые можно было бы распространять, писать код сокращения карты с нуля и запускать в облако.
Я набрался опыта в создании комплексных решений для данных IoT, ориентированных на профилактическое обслуживание парков транспортных средств. Я писал пайплайны с помощью PySpark, затем с помощью Kafka в NiFi, получая сообщения MQTT, передавая их в таблицы HBase, а затем в очереди обмена сообщениями Kafka. Я написал задания, чтобы преобразовать необработанные данные о приземлении в удобный формат. Я разработал структуру базы данных, агрегированные таблицы и функции, чтобы использовать их в своих анализах, информационных панелях и продуктах данных. Я провел эксперименты с испытательными стендами и живыми автомобилями, чтобы собрать данные и ответить на конкретные инженерные вопросы о характеристиках автомобилей, надежности деталей и сроке службы масла.
Как вы попали в науку о данных?
Во время учебы в бакалавриате я изучал математику. Мне нужно было пройти семестр по программированию (C++), и мне это понравилось, поэтому я взял дополнительный семестр курса объектно-ориентированного программирования.
Тем не менее, я была матерью-одиночкой, когда училась в колледже. Я работал полный рабочий день в дополнение к занятиям полный рабочий день. Были некоторые лабораторные программы, которые меня интересовали, но лабораторные обычно длятся несколько часов несколько раз в неделю всего за 1 кредит. Мне пришлось бы провести дополнительный год в школе, чтобы получить степень в лаборатории и продолжать работать столько, сколько мне нужно, чтобы содержать своего сына. Итак, я получил степень по математике, поскольку для этого не требовалось лабораторных работ.
После выпуска со степенью по математике и без реальных прикладных навыков мне было трудно найти хорошую работу. Я даже не смог попасть на стажировку. Единственным рекрутером на ярмарке вакансий, который перезвонил мне, конечно же, был рекрутер Национальной гвардии. Поэтому я вступил в Национальную гвардию, чтобы помочь погасить студенческие ссуды и получить настоящую профессиональную подготовку.
Я стал офицером связи в Национальной гвардии Висконсина и получил сертификаты в области ИТ, которые помогли мне получить работу в ИТ. Некоторое время я работал аналитиком ИТ-операций в страховой компании, прежде чем получил работу мечты системным администратором Linux в центре обработки данных национальной гвардии.
Это было в 2014-2015 годах, и я услышал слово «наука о данных» и заинтересовался. Мне это очень понравилось, потому что я очень любил компьютеры и математику. Поэтому через несколько месяцев после того, как я начал работать в центре обработки данных, я подал заявку на онлайн-программу магистратуры в области науки о данных. Думаю, я был среди второй группы студентов, присоединившихся к этой программе. Это были первые дни магистерских программ по науке о данных.
Мне потребовалось около 4 лет, чтобы получить степень магистра — я была матерью-одиночкой, работающей полный рабочий день в центре обработки данных, а неполный рабочий день в качестве офицера Национальной гвардии. Я ходил на одно занятие за раз, и мне нравилась каждая минута.
Что включает в себя ваша повседневная работа?
Когда я работал специалистом по обработке и анализу данных в корпорации, моя повседневная жизнь обычно включала как минимум одну встречу, множество онлайн-чатов с коллегами, несколько импровизированных телефонных звонков с соавторами и большое количество кода.
Я всегда либо строил конвейер, управляя таблицами и автоматизированными заданиями, либо углублялся в код Python, работая над анализом или моделью. В основном я использовал Python, но у нас также были лицензии на JMP, который является отличным инструментом. В конце концов мы начали использовать Dataiku, и большую часть времени я проводил за блокнотами Python, Dataiku, NiFi или Hue.
Какие технологии или языки программирования вы часто используете для выполнения своей работы?
Питон, конечно. Код ВС. Pandas, Scikit-learn и целый набор инструментов для Python
Я люблю Dataiku и как инструмент.
Что вам больше всего нравится в вашей работе?
Мне нравится сквозной процесс, который включает в себя обдумывание проблемы, выяснение того, какие данные вам нужны для решения проблемы, сбор данных, их анализ, моделирование, создание какого-либо продукта или результата. , а затем рассказать историю, чтобы другие увидели, что вы сделали.
Я люблю технические разговоры и математическое творчество, которое помогает решить задачи, но еще больше я люблю отходить от сорняков анализа и составлять связный рассказ о проделанной работе. Анализ бесполезен, если вы не можете сообщить об этом, а когда мы хорошо общаемся, работа по науке о данных становится намного более интересной и полезной для всех.
Я тоже люблю людей. Я никогда не чувствовал себя более комфортно, чем в команде ИТ-специалистов или специалистов по данным. Мне посчастливилось работать с людьми со всего мира, и я думаю, что это прекрасная возможность работать с людьми разных возрастов с разными навыками, культурами и т. д., и в то же время узнавать новые интересные темы в науке о данных.
Что, по вашему мнению, люди не знают о науке о данных или специалистах по данным?
Я думаю, что люди не знают, что эта область расширилась так быстро, что не существует единого определения или набора навыков специалиста по обработке и анализу данных. Это может быть ошеломляющим и привести к синдрому самозванца для начинающих. Я думаю, важно показать, насколько разнообразны задачи, навыки, приложения и точки зрения, связанные с наукой о данных.
Какие тенденции в науке о данных вас особенно интересуют?
Я в восторге от децентрализованного обучения. Я думаю, что децентрализация очень важна для владения данными и конфиденциальности. Это также играет большую роль в эффективности алгоритмов. Это несколько серьезных задач в этой области, связанных с созданием более энергоэффективных алгоритмов и соблюдением прав людей на данные.
Я также в восторге от IoT и киберфизических систем. С помощью данных, получаемых от датчиков в режиме реального времени, мы можем отслеживать и оптимизировать процессы, чтобы сократить количество отходов и повысить эффективность, чтобы существенно повлиять на сокращение выбросов углерода. Кроме того, у IoT есть приложения в сельском хозяйстве, цепочках поставок и мониторинге погоды, которые потенциально могут помочь нам решить реальные человеческие проблемы во всем мире.
Если бы вы не были специалистом по данным, чем бы вы занимались?
Я был бы исследователем и писателем! В настоящее время я работаю над созданием веб-сайта www.datalabnotes.com и пишу книгу, чтобы помочь специалистам по данным организовать свои проекты. Книга в равной степени полезна для консультантов, студентов и опытных профессионалов, поскольку в ней рассматривается жизненный цикл проекта по науке о данных и предоставляется шаблон для вопросов и заметок по ходу работы. Он в значительной степени вдохновлен CRISP-DM, с некоторыми дополнительными функциями, основанными на недавно опубликованных документах, лучших отраслевых практиках и мой собственный опыт.
Каковы 3 быстрых способа заняться наукой о данных и получить работу в течение года?
- Определите нишу, в которой вы хотите работать, и проведите анализ. Вот как: если вы ограничены географией, посмотрите на компании вокруг вас и компании, которые предлагают удаленные вакансии. Если вы не ограничены географией, то проведите самоанализ и выясните, над какими типами проблем вы хотите работать или в каких компаниях вы хотите работать. Определите, в каких отраслях работают эти компании, какими данными они могут располагать и какие проблемы решают.
Не просто гадайте, прочитайте описания вакансий и составьте таблицу. Начните собирать данные о типах навыков и технологий, перечисленных в объявлениях о вакансиях. Общайтесь с людьми из этих компаний через блоги LinkedIn, Kaggle, HuggingFace и Medium. Обращайте внимание на то, о чем они говорят, и общайтесь с ними, чтобы понять, какие инструменты они используют и какие проблемы могут решать.
- Затем определите, на каких навыках вы хотите сосредоточиться, исходя из вашей электронной таблицы и вашего взаимодействия с новой сетью. Когда появится что-то новое и блестящее, проверьте свой список навыков. Если его там нет, не отвлекайтесь! Сосредоточьтесь на развитии компетентности и навыков там, где это важно, на основе ваших исследований.
- Теперь самое сложное. Проявите творческий подход. Определите проект или два, в которых вы можете продемонстрировать эти навыки. Вы можете либо создать свой собственный набор данных, либо использовать данные из открытых источников. Проект должен быть связан с проектами, которые вы наблюдаете в целевой отрасли или в целевых компаниях. Конечно, вам нужно будет проявить творческий подход, потому что вы не сможете выполнять ту же работу с данными из открытых источников и ограниченными ресурсами.
Вам нужно найти более мелкие, связанные проекты. Вы можете читать статьи и писать обзоры связанных работ или найти небольшое доказательство концептуального проекта. Или создайте информационную панель, используя отраслевые данные. Или создайте конвейер, который имитирует данные и вариант использования из целевой отрасли. Возможности безграничны. Найдите способ сделать соответствующий проект. Если вы четко представляете отрасль или проблему, на которую хотите обратить внимание, то несколько проектов, подобных этому, могут широко применяться в нескольких компаниях.
Результатом третьего шага должен стать проект, который вы сможете добавить в свое портфолио — рассмотрите возможность использования сайта Jekyll на страницах GitHub как очень быстрого и простого способа создать профессиональное онлайн-портфолио. Даже если у вас есть записные книжки Kaggle или общедоступные информационные панели Tableau, создайте сайт Jekyll в качестве центрального веб-сайта, чтобы продемонстрировать все эти проекты в одном месте. Это значительно упростит обмен ссылками на всю вашу работу сразу.
Мой находится в стадии разработки, но вот он: https://projects.datalabnotes.com/. Я видел и получше, но лучше иметь незавершенную работу, чем вообще ничего!
Итак, теперь у вас должно быть 1) четкое представление об отрасли/компании/области, в которой вы хотите работать; 2) профессиональная сеть людей, связанных с этой отраслью/компанией/областью; и 3) портфолио, относящееся к работе и отрасли, которую вы хотите. Да, кстати, убедитесь, что вы публикуете и взаимодействуете со своей сетью, как вы делаете шаг 3!
Я думаю, это отличный способ выделиться и получить приглашение на собеседование!
:::информация Хотели бы вы попробовать ответить на некоторые из этих вопросов? Ссылка на шаблон находится ЗДЕСЬ, просто начните писать! Интересно, что другие сказали в своих ответах? Нажмите ЗДЕСЬ. Заинтересованы в чтении содержания всех наших письменных подсказок? Нажмите ЗДЕСЬ.
:::
Оригинал