
От федеративного обучения до местного искусственного интеллекта: риски и возможности решения задачи данных
23 июля 2025 г.За два года прошло с тех пор, как Openai выпустил CHATGPT, открыв технологическую «гонку вооружений» между создателями различных решений генеративного искусственного интеллекта (ИИ). В основном основанные на достижениях в моделях фундаментального машинного обучения (ML), которые могут выполнять различные творческие задачи-от семантического понимания и генерации контента до создания высококачественных изображений-эти технологии выдвигали своих поставщиков среди самых ценных частных предприятий.
Несмотря на коммерческий успех и широкое принятие, вопрос о поиске лучшего способа обучения этих моделей - юридические, моральные и технические вопросы данных - остается слоном в комнате. Некоторые разработчики искусственного интеллекта мучительно разжигают конфиденциальность данных и проблемы владения, в то время как другие (особенно крупные, влиятельные фирмы) просто игнорируют эти проблемы, определяя приоритеты «инновации».
Недавно многие эксперты по искусственному ИИ начали говорить о федеративном обучении, Edge AI и местном ИИ как о возможных альтернативах для решения конфиденциальных проблем с данными. Тем не менее, эти подходы имеют свои собственные риски, связанные с тем самыми проблемами, которые они должны решить: технологическая сложность и качество данных, конфиденциальность и безопасность.
Оставляя данные, где он принадлежит
Федеративное обучение представляет собой распределенную (децентрализованную) метод ML, который позволяет обучать модели, перемещая процесс обучения, где находятся данные, вместо того, чтобы собирать и перемещать данные на место обучения (центральный сервер). Тренировка проста: разработчик инициализирует параметры модели на центральном сервере и отправляет их на подключенные клиентские узлы (другие серверы, устройства с краями, интеллектуальные потребительские устройства и т. Д.), Где глобальная модель обучается с использованием локальных данных.
После завершения обучения клиентские узлы возвращают обновленные параметры обратно на центральный сервер, где они объединяются путем усреднения результатов - процесса, называемого «агрегацией». Если были какие -либо следы идентифицируемой личной информации, они должны быть потеряны в процессе. Связь между узлами осуществляется посредством специального шифрования, которое добавляет еще один уровень безопасности.
Конфиденциальные данные (будь то личные данные или коммерческие секреты) защищены различными правилами по странам, иногда делает невозможным перемещение этих данных из одного места в другое, если компания хочет обучить свои модели ML централизованным, традиционным образом. Таким образом, Federated ML обещает решить наиболее насущные проблемы с данными - трудности в безопасном использовании данных и перемещении любой конфиденциальной информации из одного юридического режима к другому.
Другое преимущество исходит от экономии средств. В случае традиционного централизованного обучения ML объем данных и полученные затраты на хранение могут быть мучительными для небольших разработчиков ИИ - просто подумайте о массе данных, собранных устройствами, такими как камеры и датчики. Большинство этих данных даже не будут полезны. Таким образом, федеративное обучение снижает определенные затраты на разработку и позволяет использовать более разнообразные данные, что может привести к лучшей точности модели.
В случаях использования для федеративного обучения легко представить. Децентрализованный ML может помочь обучить систему ИИ, используемую для медицинской диагностики, которая должна объединить чувствительные медицинские записи из разных учреждений или стран. Или это может принести пользу международному банкам подготовки модели обнаружения мошенничества по данным, агрегированным его филиалами. Тем не менее, наиболее непосредственный и полезный эффект использования федеративного обучения может заключаться в расширении возможностей дальнейших достижений в области местного (на границе) ИИ.
Концептуальная мамбо-джумбо
Федеративное обучение, локальный ИИ и Edge AI - это связанные концепции, которые имеют некоторые нюансированные различия, поэтому для начала необходимо прояснить, что значит что. Федеративное обучение - это децентрализованный подход к ML, который не включает в себя обмен необработанными данными. Модель ML обучается совместно на распределенных наборах данных - учебные узлы могут быть разными устройствами или разными серверами.
Edge AI работает непосредственно на серверах или устройствах, таких как IoT, промышленные машины и AV, без необходимого соединения с большей группой облачных серверов, что снижает прямые вычислительные затраты. Суть Edge AI принимает решения в режиме реального времени, которые выведены из самого устройства, без совместного обучения и обмена данными. В некоторых случаях модель может быть предварительно обучена с использованием федеративных методов обучения, но это также не обязательно. Транспорт, логистика, оборона (например, автономные беспилотники) и обслуживание являются основными отраслями, пользующимися приложениями Edge AI.
Наконец, местный (на границе) ИИ-это концепция среднего уровня между ними. Локальный AI суммирует любую систему, которая не зависит от внешних серверов - это может быть устройство Edge, компьютер или частный сервер. Это не обязательно принимает решения в режиме реального времени, и это может работать как в автономном режиме, так и в Интернете. Варианты использования разнообразны - примеры варьируются от нейронного двигателя Apple, который встроен в передовые умные чипы Apple для выполнения таких задач, как идентификатор лица, улучшение изображений и предложения Siri, до архитектуры LlaMa Meta, в которой есть версии, оптимизированные для работы на локальных компьютерах.
Запуск алгоритмов непосредственно на устройствах помогает поддерживать вывод в режиме реального времени без лагов и сохраняет конфиденциальность данных. Кроме того, местный ИИ может быть разработан с использованием федеративных методов обучения, и комбинация обоих может на самом деле принести огромные преимущества как с точки зрения эффективности, так и с точки зрения конфиденциальности данных.
Привлечение ИИ на наши устройства: профессионалы
Как локальный, так и Edge AI-это в первую очередь продукты вездесущих вычислений, технологии, которая позволяет повседневным объектам выполнять вычислительные задачи, используя высококачественные датчики и микропроцессоры с высокой вычислительной мощностью. Рост возможностей процессора/графического процессора на устройстве открыл возможность управления алгоритмами ИИ на местном уровне. Ведущие технологические компании быстро поняли, что это следующий горшок золота, который дает им возможность легче приблизить ИИ к повседневной жизни и коммерциализировать продукты искусственного интеллекта. Более того, стало ясно, что эти небольшие устройства обладают огромным количеством ценных данных.
Однако в случае обучения или обучения только на локальных данных, ИИ на грани, в какой-то момент станет очень ограниченным, что происходит по нескольким причинам. Во -первых, локальные модели все еще менее мощные из -за оборудования, и это часто влияет на точность и удобство использования. Во -вторых, поскольку локальные ИИ Data Local не используются, он очень ограничен по объему, влияя на окно контекста модели. Эти основные недостатки могут быть смягчены путем сочетания преимуществ местного искусственного интеллекта с подходами федеративного машинного обучения.
Представьте себе мобильные приложения, предназначенные для того, чтобы помочь людям облегчить беспокойство, принимать личные инвестиционные решения, получить советы по здравоохранению или просто научиться играть в шахматы. Любая из этих функций может быть сделано более продвинутой и полезной путем постоянного объединения данных из тысяч или даже миллионов других местных устройств. Сама необработанные данные не будут обмен, но модель ИИ может получить своевременные обновления на основе опыта нескольких пользователей.
Подводя итог, что обучение и создание моделей искусственного интеллекта локально и использование федеративного обучения для объединения данных из разных источников (устройства или данные других пользователей, собранные из Интернета), не ставя под угрозу его конфиденциальную природу или перемещение из одного юридического режима в другой, может стать основным скачком вперед от проблем с данными, которые преследуют разработчики искусственного интеллекта. Тем не менее, эти подходы приносят свои собственные проблемы безопасности и безопасность данных, которые необходимо иметь в виду.
Привлечение ИИ на наши устройства: минусы
Риск утечки параметров в сочетании с атаками на клиентские узлы со стороны вредоносных актеров (иногда используя вредоносные узлы для повреждения всей модели), вероятно, является наихудшим риском, который влечет за собой федеративное обучение. Следовательно, федеративное обучение по -прежнему требует надежного шифрования. Кроме того, существуют очень технические и все же неразрешенные вопросы о лучших методах «усреднения», которые эффективно скрывают всю конфиденциальную информацию, поступающую от локальных устройств без ущерба для точности модели.
Кроме того, при решении проблемы высоких вычислительных затрат, федеративное обучение имеет огромную проблему координации узлов и коммуникации. Различное распределение данных и качество между узлами могут повлиять на эффективность и надежность глобальной модели. Таким образом, существует сложный вопрос о том, как просеять «хорошие» данные и смягчить влияние плохих входов. Это особенно важно в случае местного ИИ, где принятие решений часто происходит в режиме реального времени.
И последнее, но не менее важное, федеративные методы обучения не снижают риск вредоносных результатов или смещения данных. На самом деле, многие отдельные учебные процессы в разных узлах могут усугубить его, поскольку эти локализованные процессы практически являются черным ящиком. На сегодняшний день нет единого жизнеспособного решения этой проблемы, и вопрос о том, как распространять ответственность вдоль цепочки создания создания искусственного интеллекта, остается законной серой зоной.
Заключительные замечания
Несмотря на значительные преимущества, использование федеративных методов обучения для развития ИИ в целом и местного ИИ в частности, представляет собой несколько потенциальных рисков и проблем, начиная от сложности модели и неоднородности данных до той же старой конфиденциальности данных, которые могут быть нарушены либо случайно (путем утечки параметров модели), либо путем запуска атак на клиентские узлы и отравление глобальной модели.
Тем не менее, эти проблемы ни в коем случае не должны помешать индустрии ИИ использовать федеративные методы обучения. На сегодняшний день нет лучшего способа соблюдать правила данных, за исключением одного - вообще не использовать конфиденциальные данные. Это утопическая (или даже антиутопическая), поскольку это означает, что жизненно важные области развития ИИ, такие как здравоохранение и финансовые услуги, не будут иметь пути вперед на долгие годы.
В настоящее время многие поставщики пытаются обойти проблему, используя синтетические данные. Однако, когда на карту поставлены критические аспекты - здоровье и безопасность, качество данных должно быть приоритетом номер один при развитии искусственного мозга.
Оригинал