Этот ИИ с открытым исходным кодом читает Землю, как ЧАТГПТ читает текст

Этот ИИ с открытым исходным кодом читает Землю, как ЧАТГПТ читает текст

20 июня 2025 г.

Как ученый -ракет стал предпринимателем создал «CHATGPT для данных о Земле», используя трансформаторы и спутниковые образы

Бруно Санчес - ракетостроение с несколько девиантной траекторией. Астрофизик по обучению, он использовал инструменты своей торговли - математика и наука - в максимально широком масштабе: вселенная. В какой -то момент, однако, его фокус переключился на использование тех же инструментов для больших целей на земле.

У Санчеса было пребывание во Всемирном банке, где, будучи членом междисциплинарных команд, он помог разобраться в геопространственных данных. Затем он понял, что ядро ​​того, что он делал, было на карту, что побудило его запустить компанию под названием Mapbox, предоставляя онлайн -карты в Интернете.

Этот опыт принес еще одну осознание для Санчеса - чтоУ нас так много данных о ЗемлеЧто мы на самом деле не знаем, как его использовать: «Мы знаем, что такое деревья в мире. Мы знаем, что такое леса в мире. Это просто вопрос правильной обработки [данных]», как он выразился.

Поэтому, когда он получил возможность попытаться собрать все это в одном и том же центре обработки данных и в одном рабочем месте, он пошел на это. Это был проект Planetary Computer в Microsoft, и Санчесам это понравилось. Затем произошел Чатгпт.

Санчес отметил, что T в Chatgpt -трансформатор- была архитектура, которая, казалось, отлично подходила для методов, таких как текст, изображения и аудио, но никто, казалось, не использовал ее для данных Земли. Поэтому он решил попробовать. Он создал команду, собрал средства, создал некоммерческую организацию и создал модель с открытым исходным кодом, используя открытые данные. И вот какГлинародился.

https://www.youtube.com/watch?v=kivphzgdzi&embedable=true

Клэй: Чатгпт данных Земли?

«Это невероятно. Это на порядок быстрее, дешевле и лучше, чем все остальное, что мы когда -либо видели, что именно то же самое, что произошло с текстом, образами и аудио. Снова доказательство того, что этот The Chatgpt, Transformer, является удивительным человеческим изобретением», - отметил Санчез, в результате энтузиаста по поводу глины.

Так что же такое глина - что он делает и как это работает? Санчеса позирует глину в абстрактных терминах как архитектуру. Это процессор, который принимает любой вид образа земли (спутник, плоскость или беспилотник) и «понимает», что на изображении. Он может идентифицировать любой объект - от плоскостей до сельскохозяйственных культур и от воды до лодок, и он может подсчитать, сколько из них находится на изображении.

Но хотя Клэй былВдохновлен ЧАТГПТи использует архитектуру трансформатора, называя ее, что данные о Земле не будут точными по ряду причин.

Ключевым отличием является тип данных, на которые была обучена глина - изображения, а не текст. Это само по себе является фундаментальным разделением, которое становится еще глубже, учитывая природу этих изображений и то, как используется модель.

Глина не была обучена не на каком -либо виде изображения, а изображения очень специфического типа: воздушные снимки с высоким разрешением земли, которые являются частьюНаборы данных об общественных достоянияхПолем Это создает очень специализированный набор данных высокого качества. Санчес отметил, что это одна из причин, по которой галлюцинации, одна из самых выраженных проблем с моделями на основе трансформаторов, гораздо меньше проблем с глиной.

Но есть еще. Глина, как Chatgpt и его ilk, полагается навнедрения-Высокомерные численные представления данных, которые он обрабатывает. Но помимо того, с чем работает глина данных, встраивание, которые он производит, и способ их использования разные.

В отличие от его аналогов, в настоящее время взаимодействие с глиной не включает текстовый интерфейс. Это даже не проходит через глину вообще. Вместо этого глиняная команда поощряет людей использовать модель для генерации встраиваний, а затем работать напрямую с ними.

Сила вторжений

Как объяснил Санчес, глина используетМаскированные автоэнкодерыПолем Это означает, что изображения не только сжимаются с помощью их встраивающих представлений, но и части изображения также удаляются. Затем модель должна реконструировать все изображение.

Например, если изображение содержит части лица, это, вероятно, означает, что есть и другие части. Таким образом, модель должна понимать с помощью сжатия, но также и контекстом.

Masked AutoEncoders compress images to embeddings. Image by Yugesh Verma on Analytics India.

Автокодеры в маске используют кодеры и декодеры и позволяют глинемасштаб без лейблеров данных человекаили необходимость контролировать модель. Первоначально идея заключалась в том, чтобы обучить основополагающую модель глины, а затем точную настройку декодеров только для конкретных задач, таких как подсчет автомобилей, например.

Но тогда глиняная команда поняла, что они могут создать встраиваемые встраиваемые, которые общеприняты. Таким образом, они генерируют встраиваемые, а затем используют встраивания, чтобы создать декодер, пропустив энкодер. Основная мотивация заключается в том, что это позволяет получать ответы в миллисекундах, а не в течение нескольких недель. Используя только вторжения ивекторная база данныхдолжен работать, согласно Санчесе:

«Представьте себе, что у нас есть пользователь, который хочет найти солнечные панели в Греции, и мы внесли в себя внедрение для всей Греции. Тогда это буквально миллисекунд, чтобы знать; у нас может не быть идеального ответа, но у нас будет хороший ответ о том, где находятся солнечные панели.

Затем, если кто -то еще приходит и хочет найти что -то еще, например, лодки или строительство, для этой новой операции используются те же встроения. Это означает, что вам нужно создать их только один раз. Это сила внедрения. Это универсальный предварительный компьютер, большую часть пути для большинства ответов ».

Клэй встречает Платона

Универсальность Entgeddings - это тема, которая вызвала большой интерес к сообществу ИИ. Этот заинтересован в последнее время сПубликация неконтролируемого подхода, который переводит любое внедрение в универсальное скрытое представление и обратно, то есть универсальная семантическая структура, предполагаемая гипотезой Платонического представления.

АГипотеза платонического представленияПредполагают, что все модели изображений достаточного размера имеют одинаковое скрытое представление. Группа исследователей из Корнелльского университета предложила более сильную, конструктивную версию этой гипотезы для текстовых моделей. Параллельно, глиняная команда экспериментирует с рядом вещей, включая текст.

Neural networks, trained with different objectives on different data and modalities, are converging to a shared statistical model of reality in their representation spaces.

С точки зрения точности, Санчес поделился некоторые эмпирические результаты, отметив, что команда решила сосредоточиться на других областях, а не на критериях. Он отметил, что Clay Enterdings выступает лучше всего, когда объект для идентификации является доминирующим объектом на изображении. Точность также зависит от размера объекта, поэтому генерируются встроения разных размеров.

Кроме того, встраивание необходимо периодически регенерировать, чтобы отражать изменения, происходящие на поверхности Земли - такие вещи, как стихийные бедствия или строительные работы. Но сама модель не должна быть переподготовлена, благодаря уникальному свойству, которое, как утверждает Санчес, Земля имеет:ЭргодичностьПолем

Эргодические системы - это системы, в которых все возможные состояния присутствуют в любое время. Например, если из -за изменения климата в Испании некоторые части Мадрид превращаются в пустыню, это то, что модель никогда не видела раньше. Но это не будет первым изображением пустыни, с которым сталкивается модель, поэтому она все равно сможет работать с этим.

Присоединяйтесь к информационному бюллетеню Orchestrate All Thats Things

Истории о том, как технологии, данные, ИИ и медиа вводятся друг в друга, формируют нашу жизнь.

Анализ, эссе, интервью и новости. Середина до длинной формы, 1-3 раза в месяц.

Подпишитесь здесь 👉https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/


Многомодальность: глина и текст

Но как насчет текста? Санчес признал, что способность объединять мощность текстовых моделей с силой моделей Земли разблокирует другой диапазон возможностей. Создание мультимодального глины позволило бы ему найти отношения, используя текстовое семантическое сходство. Примером, который Санчес использовал здесь, был возможность найти леса при поиске деревьев.

Команда активно работает над этим, но Санчес отметил, что текстовые данные представляют проблемы, которые не имеют данных, в основном связанных с правдивостью. В настоящее время команда Clay экспериментирует с использованиемOpenStreetMapsПолем

https://pod.co/orchestrate-all-the-things-podcast-connecting-the-dots-with-george-anadiotis/building-ai-for-earth-with-clay-the-intelligence-platform-transforming-geospatial-data-analysis-featuring-clay-executive-director-bruno-snchez?embedable=true

Во -первых, они используют глину, чтобы создать внедрение изображения Земли. Затем они делают одно и то же изображение и используют API OpenStreetMaps, чтобы допросить метки той же территории. OpenStreetMaps реагирует с такими характеристиками, как пустыня, река или парковка, и текстовая модель используется для создания внедрения этого.

Затем команда берет 2 встроения этого места - тот, который из Клэя и из текстовой модели - и они пытаются выяснить, как их выравнивать. Цель состоит в том, чтобы минимизировать потери при попытке воссоздать один из другого или найти сходство. Встроения глины должны быть похожи на текст их аналога, так как они кодируют одно и то же, даже если модальность отличается.

ИИ и воздействие на окружающую среду

Несмотря на его энтузиазм по поводу трансформеров, Санчес признает, что они не идеальны. Основная причина, по которой архитектура трансформатора была выбрана для глины, была факт, что индустрия, и исследования позадили ее, поэтому есть много ресурсов и опыта, которые можно использовать.

«Если бы мне пришлось выбрать с нуля, и у меня было финансирование, чтобы управлять мировым движением ИИ, возможно, мы бы не выбрали трансформеров, но это решение не в наших руках», - сказал Санчес.

Основные недостатки в трансформаторах, с которыми должна была иметь глиняную команду, связаны с количеством данных и вычислением, необходимыми для обучения моделей, и их чувствительности. В то время как не было никаких качественных данных для обучения глины,Вычислить было проблемойПолем Это требует еще большего количества данных и вычислять для производства тонких настроек, а результаты хрупкие и чрезмерно специфические.

Команда Clay начала с доказательства концепции перед сбором средств для проведения обширного обучения, которое было необходимо для производства модели. На сегодняшний день было только 2 итерации модели глины, и Санчес хочет свести к минимуму количество необходимого обучения - отсюда и использование внедрения.

There is a certain irony in using AI to potentially cut down on environmental degradation

Благодаря своему пребыванию на планетарном компьютере Microsoft, Санчес хорошо знает, насколько чрезвычайно требуется ИИ с точки зрения электроэнергии, воды и других ресурсов. Ирония попытки применить ИИ для потенциального сокращения деградации окружающей среды не теряется на нем. Он утверждает, что это одна из причин, по которой глина некоммерческая.

Идея, по его словам, состоит в том, что глина открыта не только в своем выходе, но и о том, как команда работает и подход. Чего они надеются достичьЭкологический след ИИДля Земли 2 способами.

Во -первых, заставляя людей с аналогичными целями, чтобы объединить усилия, поэтому вместо того, чтобы тренировать больше моделей, они объединяются вокруг глины. Во -вторых, поделившись с людьми, которые все еще хотят заниматься своими делами, чтобы они могли учиться на опыте Клэя и сократить количество необходимого обучения.

Работа с Clay и LGND

Это все в порядке и хорошо, но как на самом деле лучший способ использовать глину? Это открытый вопрос. Помимо внедрения и тонкой настройки, которые требуют экспертизы и ресурсов, а также экспериментальных текстов, глиняная команда также разработала приложение под названиемКлэй исследуетсяПолем

«Это карта. Вы нажимаете места, и она позволяет вам найти вещи. Но затем мы спрашиваем себя - это карта, потому что она заслуживает того, чтобы быть картой или потому, что я привык к картам, потому что я в этой отрасли и хочу карту?

Мы думаем, что, может быть, способ максимизировать полезность глины не должна быть картой. Может быть, это также интерфейс чата. Может быть, это просто колонка на электронной таблице. Мы не знаем », - сказал Санчес.

Санчес также изучает способы предоставления услуг и разработки продуктов вокруг глины черезLGNDстартап, который он основал в 2024 году. Сейчас ранние дни, но у компании уже есть несколько платных клиентов и теперь закрывает семенный раунд финансирования.

«Самое главное, что у нас есть четкое представление о том, что такое сервис, но в то же время мы здоровы, не зная, что такое продукт. Потому что, если то, о чем мы здесь говорим, изменяет геопространственную отрасль, мышление об этом [должно быть] совершенно другим.

Мы не геопространственная компания. Мы ответили компании. И наш самый большой риск - стать геопространственной компанией, из которой есть много », - отметил Санчес.

Иду все в

Открытость является ключевой темой для глины и LGND, поскольку Sánchez открыт как для партнерств, так и для использования моделей, отличных от глины. Параллельно, когда новое финансирование будет обеспечено для некоммерческой организации, развитие Клэя будет продолжаться.

«Возможно, это ценность в том, что это открытый исходный код. Может быть, значение в том, что оно не в автономном режиме. Мы делаем пари, что там что -то есть. Может быть. Может быть. Может быть. Может быть, мы ошибаемся, и, возможно, встраиваемые не это.

Но если это так, или в той степени, в которой это так, я твердо верю, что это разблокирует столь большую ценность для стольких вопросов, социальных, экономических, экологических, а также инвестиций.

Есть так много вещей, которые имеют смысл в этом, что я иду все. И я бы предпочел ошибаться, но попробовал это, чем подождать, чтобы увидеть технологию, которая дает мне уверенность в том, что она будет работать », - это то, как Санчес под суммирует философию, стоящую за глиной.


Присоединяйтесь к информационному бюллетеню Orchestrate All Thats Things

Истории о том, как технологии, данные, ИИ и медиа вводятся друг в друга, формируют нашу жизнь.

Анализ, эссе, интервью и новости. Середина до длинной формы, 1-3 раза в месяц.

Подпишитесь здесь 👉https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE