Как улучшить качество данных в 2022 году
27 мая 2022 г.Оценка качества данных — это непрерывный научный процесс оценки того, соответствуют ли ваши данные стандартам. Эти стандарты могут быть привязаны к вашему бизнесу или целям проекта.
Потребность в обеспечении качества данных возросла, так как существует много различных способов получения данных.
Обработка одного источника данных в одиночку иногда может быть сложной задачей. Скажем, например, опрос клиентов. Часто трудно нормализовать информацию каждого респондента, даже с помощью онлайн-инструментов для проведения опросов. Теперь представьте себе интеграцию и стандартизацию данных из ERP, CRM, HR-систем, не говоря уже о множестве различных датчиков, которые мы используем в наши дни. Без оценки качества данных это проблема на всю жизнь.
Но есть и хорошие новости! Мы развивались вместе со сложностями, связанными со сбором данных и управлением ими.
Оценка качества данных играет решающую роль в управлении данными. Они помогают нам выявлять проблемы с некорректными данными на различных уровнях конвейера данных. Они также помогают нам количественно оценить влияние на бизнес и как можно скорее принять корректирующие меры.
Данные низкого качества могут иметь серьезные последствия.
Возьмем, к примеру, проблему качества данных в сфере здравоохранения. Предположим, человек, вводящий данные, продублировал запись пациента; пациент получит две дозы препарата вместо одной. Последствия могут быть катастрофическими.
[Проблемы качества] (https://www.researchgate.net/publication/277237089_The_costs_of_poor_data_quality), подобные вышеперечисленным, могут иметь ужасные последствия независимо от отрасли. Но дублирование — это только одна из проблем качества данных. Существует целый ряд других проблем с качеством, о которых нам следует беспокоиться.
Давайте представим, что вы работаете над проблемой оптимизации запасов. Склад контролируется с помощью автоматизированной системы. Что произойдет, если один из ваших датчиков отправит значения, вдвое превышающие исходную частоту? Ненадежные данные приведут к тому, что вы будете запасаться товарами, которые уже есть на складе, но упустите все товары, пользующиеся повышенным спросом.
Взгляните на свои процессы сбора данных и управления ими с разных сторон.
Качество данных имеет шесть параметров: точность, полнота, согласованность, своевременность, достоверность и уникальность. Мы также можем рассматривать подотчетность и упорядоченность данных как другие важные характеристики.
![Исследователи данных и руководители должны учитывать эти шесть аспектов качества данных при разработке новых стратегий.]
Различные измерения, обсуждаемые здесь, являются шкалами, по которым мы оцениваем качество наших данных. Поддерживать 100% качество в огромном озере данных практически невозможно. Толерантность к качеству данных — это стратегическое решение, которое мы должны принять как можно раньше. Но это для будущего поста.
Точность данных.
Точность данных является распространенным аспектом качества, за который все борются. Но что вообще означает точность данных?
Точность данных — это то, в какой степени имеющиеся данные отражают реальность. Очевидной причиной является ввод данных --- опечатки в имени и неверные значения возраста.
Но есть и более катастрофические проблемы.
[НАСА однажды потеряло космический корабль стоимостью 125 миллионов долларов] (https://edition.cnn.com/TECH/space/9909/30/mars.metric.02/). Lockheed Martin, команда английских инженеров, работала с НАСА над запуском программы. Различные единицы измерения, используемые двумя группами, привели к отключению связи с космическим кораблем.
Единицы измерения являются наиболее распространенной причиной неточности данных.
Полнота данных
Полнота данных означает, что ваши наборы данных содержат всю необходимую информацию о каждой записи. Требования зависят от приложения и потребностей бизнеса. Например, телефонные номера малопригодны для модели машинного обучения, тогда как для системы доставки они имеют решающее значение.
Проверки форм и ограничения базы данных очень помогают уменьшить ошибки полноты. Тем не менее, ошибки планирования часто оказывают огромное влияние на качество данных.
Полнота данных — это компромисс. Чем строже ты на полях, тем меньше попадаешь на рекорды. Этот компромисс действителен как для ручного, так и для автоматического сбора данных. Если вы сделаете все поля в опросе обязательными, вы не получите столько ответов, сколько планировали. С точки зрения автоматизации, предположим, вы наложили ограничение на координаты GPS для потока данных, поступающего с удаленной камеры. Вы устанавливаете набор новых устройств, которые могут не поддерживать GPS, и отправляете данные, которые не будут приняты в ваше озеро данных.
Это сложное измерение, чтобы набрать хороший балл. Сложность возрастает по мере того, как вы получаете данные из большего количества источников.
Непротиворечивость данных
Согласованность данных – это отсутствие противоречий в данных, полученных из разных источников. Поскольку каждый источник данных может иметь уникальный способ измерения информации, они иногда не совпадают с другими.
Допустим, вы хотите узнать ежедневный объем продаж определенного продукта. Управление запасами отслеживает продажи на основе оставшихся товаров. Ваш POS отслеживает то же самое на основе проданных товаров. Возвращенные предметы могут проникнуть в систему инвентаризации без записи в POS.
Во время интеграции эти две системы сообщали разные цифры ежедневного объема продаж.
В идеальном мире обе системы должны учитывать доходность. Но это случается редко, учитывая сложности крупных организаций.
Сроки качества данных
Данные должны быть доступны в то время, когда они требуются в системе. Предположим, вы формируете отчет каждую пятницу, и еще не все ваши данные поступили; это серьезно изменит решения и направления вашей организации.
На своевременность данных влияет несколько причин:
- Проблемы с сетью. Прочтите о периферийных вычислениях, если вы считаете, что в городах есть приличное интернет-соединение и вам не о чем беспокоиться. Вся концепция построена на уменьшении задержки в сети.
- Могут быть проблемы с работой. Возврат продукции и расчеты ежедневных продаж являются хорошими примерами несвоевременности.
- У нас возникают проблемы на этапе сбора данных. Это может быть неправильный ввод данных, неисправность датчиков и т. д.
Неверные данные
Я закончил среднюю школу около 12 лет назад. Но я все еще получаю брошюры от учреждений, ориентированных на школьников. Это отличный пример наличия неверных данных.
Недействительные данные — это записи, которые больше не имеют смысла. Они бесполезно заполняют пространство. Кроме того, когда они используются, тоже может быть опасно.
Неверные данные стоят дорого, но в некоторых случаях правила аннулирования размыты. Например, как мы узнаем, полностью ли пациент вылечился от болезни, если вы сами не являетесь врачом или пациентом? Некоторые болезни могут иметь средний диапазон времени для выздоровления. Но не все. В таких случаях вы храните неверные данные в своем хранилище данных и принимаете болезненные (иногда вредные) решения на их основе.
Уникальность
Уникальность данных означает отсутствие дублирования одной и той же информации дважды или более. Они появляются в двух формах; дублирование записей и дублирование информации в нескольких местах.
Повторяющиеся записи часто легко подобрать. Они появляются более одного раза в одних и тех же наборах данных, и их относительно просто удалить автоматически.
Хорошей практикой является использование ключевого столбца для ограничения уникальности, а не всей записи. Это связано с тем, что определенные повторяющиеся записи могут содержать некоторые поля, которые больше не являются уникальными. Большинство транзакционных записей имеют отметку времени, которая является прекрасным примером. Они не отображаются как дубликаты, если мы не используем одно или несколько полей для удаления дубликатов.
Дублирование информации — это хранение одной и той же информации в разных местах. Например, возраст пациента может быть указан на приемном столе и на операционном столе. Это не просто хороший дизайн.
Дублированная информация является воротами к другим проблемам качества. Если не обновить все записи, возникнут несоответствия. По крайней мере, один из них все равно неточен.
Еще одно не столь очевидное дублирование — производная информация. Возьмите возраст и дату рождения. Одного достаточно, чтобы узнать другое. Но сохранение обоих создает двусмысленность.
Как выполнить оценку качества данных?
Нам необходимо выполнить оценку качества данных для каждой критической области в нашем хранилище данных. Самое детальное, что вы можете сделать, это уровень полей. Но вы также можете проверить на уровне базы данных.
![Эти шесть шагов помогают нам проводить непрерывную оценку качества данных для организации.]
Оценка качества данных — это повторяющийся процесс проверки соответствия ваших данных требуемым стандартам. Каждая итерация будет состоять из следующих шести фаз.
1. Определите целевые показатели качества данных.
На этапе «определения» мы переводим бизнес-цели в целевые показатели качества данных и решаем, какое качество является приемлемым. Эта матрица должна измеряться по каждому из шести параметров качества данных.
Достижение 100% маловероятно в крупномасштабных приложениях. Но если вы работаете с небольшими наборами данных, вы можете быть к ним более строгими.
Если вы являетесь медицинским приложением, которое отправляет последующие предупреждения о дозировке, вам необходимо вести журнал каждой дозы, которую принял пациент. Поле метки времени в каждой записи является важной частью информации для следующей дозы. Следовательно, он должен иметь порог около 100% по всем шести параметрам.
Но если у вас есть кондитерская и вы хотите каждый год отправлять поздравительную открытку, ваши правила могут быть гораздо более гибкими.
Поле адреса или номера телефона должно иметь высокий порог точности (скажем, около 90%). Тем не менее, у них может быть средняя цель (где-то около 60%) уникальности, потому что люди иногда дают свои альтернативные номера телефонов при покупке.
Эти пороги также зависят от домена. Как видно из последних двух примеров, цена ошибки во втором случае ничтожна по сравнению со здравоохранением.
Эти правила могут иметь несколько уровней детализации. Например, столбец адреса может иметь уникальный порог. Но мы также можем установить порог полноты, поскольку каждая запись должна содержать номер телефона или почтовый адрес.
2. Оценка качества данных
На этапе «оценки» мы оцениваем наши наборы данных по правилам, которые мы определили для шести параметров качества данных. Каждый из них получит приемлемый балл. Показатель приемлемости — это процент записей, удовлетворяющих условиям.
На небольшом наборе данных или базе данных довольно легко проводить эти эксперименты вручную. Однако в огромном хранилище данных вам потребуется некоторая автоматизация для проверки качества данных.
3. Проанализируйте оценочный балл.
Оценка качества данных не заканчивается на этапе оценки. Оценка качества данных направлена на то, чтобы как можно раньше определить влияние на бизнес и принять корректирующие меры. Целью этого этапа является оценка влияния на бизнес.
Это сложное упражнение, и оно не зависит от предметной области. То, как одна организация суммирует оценочные баллы, отличается от других.
Но цель этапа очевидна. Мы находим наиболее существенные дыры, из которых происходит утечка данных, и исправим их.
4. Проведите мозговой штурм для улучшения
На этапе «мозгового штурма» мы совместно разработали идеи, которые могли бы устранить обнаруженные пробелы. Лучше всего иметь подразделение, в которое входят члены каждой команды, чтобы планы
- желательно теми, кто за это отвечает;
- технически осуществимо, и;
- экономически целесообразно.
Желательность, осуществимость и жизнеспособность могут создать или разрушить идею.
Вот пример.
Давайте предположим, что на этапе анализа мы определили, что пациенты не заполняют некоторую важную информацию при опросе на стойке регистрации. Ваша техническая команда может предложить сделать опрос электронным. Электронные опросы могут налагать обязательные проверки, которые трудно обойти. Врач или медсестра в группе могут сказать, что это решение нежелательно, поскольку люди спешат начать лечение. Персонал на стойке регистрации может сказать, что они спешат, даже при выезде. Следовательно, вашим окончательным решением может быть первичное заполнение анкеты при поступлении и подробный электронный опрос после лечения.
Возможно, вы заметили, что решения не всегда технические. Качество данных нельзя улучшить только за счет исправления конвейера данных. Иногда могут потребоваться нетрадиционные стратегии, которые не очевидны.
Тем не менее, некоторые из наиболее частых самых популярных ответов также могут помочь. Вот несколько.
- Автоматизировать сбор данных.
Значительное количество проблем с качеством можно решить одним только этим приемом. Это улучшает качество по всем шести измерениям. Если система может это сделать, пусть делает.
По возможности создавайте электронные формы.
Если автоматизация невозможна, лучшим решением будет создание электронной формы с проверками. В электронном опросе труднее пропустить важный вопрос, чем в бумажном. И вы также сэкономите массу времени, избегая оцифровки своих коллекций.
- Создавайте актуальные метаданные и делитесь ими с соответствующими сторонами.
Метаданные — это описание набора данных. Они включают все, кроме данных, чтобы помочь пользователям понять, почему существует этот набор данных. Обычно метаданные включают типы полей, проверки полей и ограничения.
[Поддержание обновленных метаданных помогает] (https://searchitchannel.techtarget.com/feature/The-benefits-of-metadata-and-implementing-a-metadata-management-strategy) ускорить автоматизацию и четко донести требования до команд. .
5. Внедрите стратегии по улучшению качества данных.
Реализация требует больше времени и усилий, чем любая из других пяти задач этой оценки. Но больше времени, потраченного на этапы анализа и мозгового штурма, может облегчить работу здесь.
Мы знаем, что стратегии улучшения качества данных могут быть нетрадиционными. Хорошее время для проведения опроса имеет важное значение для проверки электронной формы. Следовательно, реализация этих идей является обязательством нескольких команд. В большинстве случаев вплоть до C Suite.
6. Контроль
Заключительный этап «Контроль» касается следующей итерации оценки качества данных. Как мы тестируем только что реализованные стратегии? Работает ли одна и та же матрица или нам нужен другой набор мер? Должны ли мы повысить (или понизить) целевые показатели качества? Когда разумные сроки для следующей итерации?
Последние мысли
В этом посте я обсудил основы измерения и оценки качества данных.
Оценка качества данных жизненно важна для поддержания надежного источника данных. И они имеют решающее значение для принятия решений на основе данных. В зависимости от домена и типов приложений последствия низкого качества данных могут быть от незначительных до катастрофических.
Чтобы понять оценки качества данных, мы должны сначала понять шесть аспектов качества данных. Именно по этим шести параметрам мы проводим оценку качества.
Сама оценка качества данных представляет собой повторяющийся процесс. Каждая итерация может состоять из шести этапов, чтобы обеспечить правильное выявление пробелов в качестве и принятие мер для их устранения. Результаты одной итерации помогают скорректировать цели для следующей итерации.
Первоначально опубликовано [здесь] (https://www.the-analytics.club/data-quality-assessment).
Оригинал