Шокирующая правда: Как изменение данных в правительственных базах данных подрывает доверие к государственным данным
16 июля 2025 г.Вступление
Представьте себе мир, где данные, на которые мы полагаемся для принятия важных решений, внезапно начинают меняться без предупреждения. В США это стало реальностью: недавно было обнаружено, что более 100 государственных здравоохранений баз данных были изменены без публичного уведомления. Как это влияет на общественное доверие и научные исследования? Давайте разберемся.
Пересказ Reddit поста своими словами
В статье, опубликованной в медицинском журнале The Lancet, сообщается о том, что более 100 правительственных баз данных США были изменены в этом весеннем сезоне без публичного уведомления. Исследование показало, что почти половина из 232 рассматриваемых файлов подверглась изменениям в формулировках, при этом официальные журналы изменений оставались пустыми. Авторы предупреждают, что такие скрытые изменения могут существенно влиять на общественное здравоохранение и подрывать доверие к федеральным данным.
Исследователи начали с загрузки онлайн-каталогов, известных как источники сборов, которые федеральные агентства поддерживают в соответствии с Законом об открытых правительственных данных 2019 года. Они собрали все записи из Центров по контролю и профилактике заболеваний (CDC), Министерства здравоохранения и социальных служб (HHS) и Министерства по делам ветеранов, которые были изменены с 20 января по 25 марта 2025 года.
После удаления дубликатов и файлов, которые обновляются ежемесячно, команда осталась с 232 базами данных. Для каждой из них они нашли архивную копию, предшествующую периоду исследования, чаще всего с помощью Интернет-архива Wayback Machine. Затем они использовали функцию сравнения в текстовом редакторе, чтобы выделить все текстовые различия между старыми и новыми версиями. В числовых таблицах изменения не проверялись.
Исследователи открывали публичный журнал изменений, который находится внизу каждой страницы с базой данных, чтобы увидеть, была ли заявлена измененная версия. Один из примеров показывает, как изменения проявлялись на практике: файл из Министерства по делам ветеранов, отслеживающий количество ветеранов, использующих медицинские услуги в 2021 финансовом году, не изменялся более двух лет. 5 марта 2025 года заголовок столбца "Пол" был заменен на "Гендер". Аналогичная замена была сделана в заголовке базы данных и в кратком описании вверху страницы. Дата изменения на сайте была обновлена, чтобы отразить изменение, но встроенный журнал изменений все еще показывал: "Изменений пока не заархивировано".
По всей выборке образцов паттерн был удивительно однородным. Из 232 баз данных 114 (49%) содержали, по мнению авторов, потенциально существенные изменения в формулировках. Из них 106 заменили термин "пол" на "гендер". Четыре файла заменили фразу "социальные детерминанты здоровья" на "немедицинские факторы", один заменил "социально-экономический статус" на "социально-экономические характеристики", и один список клинических испытаний переписал свое название, чтобы "гендерно разнообразные" стали "включают мужчин и женщин".
Сущность проблемы
Хакерский подход
Исследователи использовали хакерский подход, чтобы выявить изменения в данных. Они загрузили архивные копии баз данных и сравнили их с текущими версиями, используя простые текстовые редакторы для выявления различий. Это позволило им увидеть, что многие изменения не были зафиксированы в официальных журналах.
Основные тенденции
Одной из главных тенденций является замена термина "пол" на "гендер" в нескольких базах данных. Это изменение может показаться незначительным, но оно имеет важные последствия для интерпретации данных и проведения исследований. Другая тенденция — замена фразы "социальные детерминанты здоровья" на "немедицинские факторы", что может изменять фокус исследований и политики.
Детальный разбор проблемы
Влияние на исследования
Изменения в данных могут существенно влиять на научные исследования. Например, если термины "пол" и "гендер" используются по-разному в разных базах данных, это может привести к недоразумениям и ошибкам в анализе данных. Исследователи могут получить искаженные результаты, если они не учтут эти изменения.
Влияние на политику
Изменения в данных также могут влиять на политику. Государственные органы часто принимают решения на основе доступных данных. Если данные изменяются без уведомления, это может привести к неправильным решениям и политике, которая не соответствует реальной ситуации.
Этические аспекты
Изменение данных без уведомления также поднимает этические вопросы. Общественное доверие к государственным данным и исследованиям может быть подорвано, если люди начнут сомневаться в их достоверности и точности.
Кейсы и примеры
Рассмотрим пример с базой данных Министерства по делам ветеранов. Замена термина "пол" на "гендер" может показаться незначительной, но она может существенно изменить интерпретацию данных о ветеранах. Исследователи, работающие с этими данными, могут получить неправильные выводы, если не учтут это изменение.
Другой пример — замена фразы "социальные детерминанты здоровья" на "немедицинские факторы". Это изменение может изменить фокус исследований и политики, перенося внимание с социальных факторов на более широкий спектр факторов, влияющих на здоровье.
Экспертные мнения из комментариев
Если данные не поддерживают вашу повестку, просто измените данные.
Автор: Vegetable_Quote_4807
Это было замечено людьми, которые работают с данными. Администрация Трампа начала удалять данные почти сразу. Некоторые были сохранены на Wayback Machine, некоторые — просто сохранены людьми.
Автор: bylebog
Это звучит как преступление. Так много важных решений и последствий происходят в результате этих баз данных.
Автор: blissed_out
Возможные решения и рекомендации
Для предотвращения подобных ситуаций в будущем необходимо внедрить более строгие меры контроля и прозрачности. Вот несколько рекомендаций:
- Регулярный аудит данных: Внедрить регулярные аудиты баз данных, чтобы выявлять несанкционированные изменения.
- Публичные уведомления: Обязать государственные органы публиковать уведомления о любых изменениях в данных.
- Открытость данных: Сделать данные более открытыми и доступными для общественности, чтобы уменьшить возможность скрытых изменений.
- Обучение сотрудников: Провести обучение для сотрудников, работающих с данными, чтобы они понимали важность точности и прозрачности.
Заключение
Изменение данных без уведомления — серьезная проблема, которая может подрывать доверие к государственным данным и исследованиям. Необходимо принять меры для повышения прозрачности и точности данных, чтобы избежать подобных ситуаций в будущем.
В свете этих событий, важно понимать, что данные — это фундамент для принятия решений и проведения исследований. Их изменение без уведомления может иметь серьезные последствия для всех нас.
Практический пример кода
Вот пример кода на Python, который может использоваться для сравнения двух версий базы данных и выявления изменений.
# Импортируем необходимые библиотеки
import pandas as pd
def compare_datasets(old_data_path, new_data_path):
"""
Сравнивает две версии базы данных и выявляет различия.
Args:
old_data_path: Путь к старой версии базы данных (CSV)
new_data_path: Путь к новой версии базы данных (CSV)
Returns:
pd.DataFrame: DataFrame с различиями между двумя версиями
"""
# Загружаем данные
old_data = pd.read_csv(old_data_path)
new_data = pd.read_csv(new_data_path)
# Сравниваем данные
differences = new_data.compare(old_data, align_axis=0)
return differences
# Пути к файлам
old_data_path = 'path/to/old_data.csv'
new_data_path = 'path/to/new_data.csv'
# Сравниваем данные
differences = compare_datasets(old_data_path, new_data_path)
# Выводим различия
print(differences)
Этот код загружает две версии базы данных (старую и новую) и сравнивает их, выявляя различия. Результаты сравнения выводятся в виде DataFrame, что позволяет легко увидеть, какие изменения были внесены.
Оригинал