
LLMS, дисфория данных и глобальный регуляторный ответ
24 июня 2025 г.В быстро меняющемся мире искусственного интеллекта (ИИ), крупные языковые модели (LLMS), такие как CHATGPT, стали революционными инструментами, способными генерировать человеческий текст, решать сложные проблемы и помощь в бесчисленном количестве задач. Тем не менее, эти модели не без проблем, особенно когда речь идет о управлении. Пролиферация LLMS вызвало то, что звонят некоторые аналитики »Данные дисфория, «Состояние беспокойства относительно использования и управления обширными наборами данных, которые питают эти модели.
Рост LLM и загадку данных
Большие языковые модели построены на массивных наборах данных, часто скрещенных из Интернета. К ним относятся все, от публичных постов в социальных сетях до проприетарного контента на веб -сайтах. Такие наборы данных являются жизненной силой LLM, позволяющей им изучать шаблоны на языке и генерировать когерентные ответы на запросы пользователей. Тем не менее, сам процесс сбора данных в Интернете вызвал значительную обеспокоенность среди политиков, органов по защите данных и создателей контента.
24 августа 2023 года Управление австралийского информационного комиссара (OAIC) и 11 международных аналогов защиты данныхвыпустил совместное заявлениеПредупреждение о растущих случаях соскоба данных, особенно из социальных сетей. Это утверждение отражает растущий дискомфорт по поводу практики разработчиков LLM, которые полагаются на сокраренные данные, часто без явного согласия владельцев данных.
Проблемы управления
Проблемы управления, связанные с LLMS, сложны. Во -первых, есть проблема, откуда берутся данные. Данные, используемые для обучения этих моделей, часто поступают из множества источников, некоторые из которых, возможно, не дали явного разрешения на использование их данных. Это поднимает вопросы о законности и этике соскоба данных, а также о правах создателей контента и субъектов данных.
Во -вторых, качество и достоверность данных являются критическими проблемами. Поскольку LLMs учатся из данных, которые они питаются, любые неточности, смещения или пробелы в данных могут привести к ошибочным выходам. Это особенно касается, когда LLM используются в среде высоких ставок, таких как здравоохранение или юридическая консультация.
В -третьих, есть проблема прозрачности. Многие LLM работают как черные ящики, и практически не предоставляется пользователям о том, как они были обучены, или какие данные они обучены. Это отсутствие прозрачности затрудняет эффективное регулирование этих моделей, и для пользователей доверяют выпускам, которые они генерируют.
Политические ответы и глобальные перспективы
Во всем мире политики сталкиваются с тем, как регулировать LLMS и решать проблемы управления данными, которые они представляют. ААкт ИИ Европейского СоюзаНапример, направлена на создание комплексной нормативно -правовой базы для ИИ, включая положения о прозрачности и подотчетности в цепочке поставок данных. Между тем, в Японии правительствопересмотрел свои законы об авторском правеоблегчить развитие ИИ, обеспечивая, чтобы использование материала, защищенного авторским правом, было справедливым и прозрачным.
Напротив, Соединенные Штаты приняли более частичный подход, с постоянными юридическими битвами за использование защищенных авторским правом данных разработчиков LLM. По состоянию на август 2023 г.Несколько судебных процессовОпределяются против крупных компаний по искусственным технологиям, таким как Openai и Google, подчеркивая растущую напряженность между инновациями и правами интеллектуальной собственности. Канада внедрилаДиректива по автоматическому принятию решенийВ 2019 году управление системами искусственного интеллекта, закупленных правительством, обеспечивая актуальность данных, точность и отслеживание. Закон потребовал бы, чтобы организации были бы ведущие записи о том, как они управляют анонимизированными данными, но в основном это касается того, как выявлять, оценивать и смягчить вред ИИ в целом. Закон AI и данных, рассматриваемый по состоянию на август 2023 года, остается отключенным от управления LLMS и цепочки поставок данных, оставляя пробелы в рамках регулирования.
Дорога впереди
По мере того, как LLM продолжают развиваться и становятся все более интегрированными в повседневную жизнь, проблемы управления будут только более выраженными. Политики должны принять системный подход, который учитывает весь жизненный цикл данных, от сбора и обработки до использования и утилизации. Это потребует новых правил, инновационных структур управления и постоянного диалога между правительствами, разработчиками ИИ и гражданским обществом.
Кроме того, разработчики LLM должны предпринять упреждающие шаги, чтобы обеспечить обучение их моделей на высококачественные данные с этически источниками. Это включает в себя получение явного согласия от субъектов данных, компенсацию создателей контента, когда это необходимо, и прозрачно относиться к их практике данных.
Заключение
Рост больших языковых моделей открыл новую эру ИИ, наполненную как обещанием, так и опасностью. Поскольку мы ориентируемся на сложности управления данными и стремимся решать проблемы, связанные с этими моделями, крайне важно, чтобы мы сделали это с целью защиты индивидуальных прав, стимулирования инноваций и поддержания доверия к цифровой экосистеме. Только тогда мы можем полностью использовать потенциал LLM, смягчая риски, которые они представляют.
Призыв к действию
Поскольку эти дебаты продолжают разворачиваться, для всех заинтересованных сторон важно, включая политиков, разработчиков ИИ и общественности, чтобы участвовать в дискуссиях о будущем управления ИИ. Работая вместе, мы можем гарантировать, что преимущества LLM реализованы при минимизации их потенциального вреда. Поделитесь своими мыслями в разделе комментариев ниже!
Эта статья основана на этом исследовании: Сьюзен Ариэль Ааронсон, 2023 год ».Задача управления, создаваемая большими моделями обучения, "Рабочие документы2023-07, Университет Джорджа Вашингтона, Институт международной экономической политики.
Оригинал