Как закон США применяется к обучению LLM

Как закон США применяется к обучению LLM

1 июля 2025 г.

Андреа Барц, Чарльз Гребер и Кирк Уоллес Джонсон против Антропического ПБК, извлеченного 25 июня 2025 года, является частьюLegal PDF -серия HackernoonПолем Вы можете перейти к любой части в этой подачездесьПолем Это часть 4 из 10.

АНАЛИЗ

Раздел 107 Закона об авторском праве определяет четыре фактора для определения того, является ли данное использование защищенной авторским правом работ: справедливое использование:

[T] Он справедливо использует защищенную авторским правом произведения. Полем Полем Для таких целей, как критика, комментарии, сообщения новостей, обучение (включая несколько копий для использования в классе), стипендия или исследования, не является нарушением авторских прав. При определении того, должно ли использовать использование работы в любом конкретном случае справедливым использованием факторами, которые следует учитывать, включать

(1) цель и характер использования, в том числе о том, носит ли такое использование коммерческого характера или для некоммерческих образовательных целей;

(2) природа защищенной авторским правом;

(3) сумма и содержательная часть, используемой в отношении защищенной авторским правом работ в целом; и

(4) Влияние использования на потенциальный рынок или стоимость работы, защищенной авторским правом.

Эти факторы предполагают «использование». Таким образом, на пороге суд должен решить, использовалась ли «авторское право [работа] несколькими способами», а затем оценить каждый. Уорхол, 598 США в 533. Использование не включает «субъективное намерение пользователя», а на «объективном запросе о том, какое использование было сделано, то есть, что пользователь D [ID] с исходной работой». Идентификатор. в 544–45. «Использование» должно быть истолковано достаточно узко, чтобы не «глотать» различимые использование нарушений, гораздо меньше категорий исключительных прав в TOTO. Идентификатор. в 541, 543 n.18, 546–48. Иногда вызорный копирование включает в себя только одно использование: в Perfect 10, Inc. против Amazon.com, Inc., Google посетил веб-сайты с полноразмерными изображениями, сделанные только копии уменьшенного размера и включали в себя непосредственно в свою поисковую систему-единственное использование миниатюр, как «указатель [s]» для самих изображений. 508 F.3d 1146, 1157, 1160, 1165 (9th Cir. 2007). Иногда копирование включает в себя множество применений: в случаях Google Books, Google заимствовал книги из библиотек, создал копии как полномочий, так и только текстовые копии, и включал различные копии в различные инструменты-одно из них, чтобы раскрыть информацию «об этих книгах», другое использование для предоставления книг для покровителей с ограниченными возможностями, и еще одно из того, что нужно для резервного копирования печатных книг, если потерянные. Авторская гильдия против Google, Inc., 804 F.3d 202, 217 (2d Cir. 2015) (цитируется); Authors Guild, Inc. против Hathitrust, 755 F.3d 87, 97, 101, 103 (2d Cir. 2014) (другие цитируемые виды использования).

Наши вечеринки обсуждают поучительное решение. В деле American Geophysical Union v. Texaco Inc. сотрудники Texaco использовали научные статьи в центральной библиотеке, использовали копии их в библиотеках личных столов и использовали выбранные копии в научной лаборатории - первое использование, заплаченное, второе нарушение и третье правдоподобно, но на самом деле является редким явлением. 802 F. Supp. 1, 4–5, 14 (S.D.N.Y. 1992) (судья Пьер Левал), Aff'd, 60 F.3d 913, 918–19, 926 (2d Cir. 1994).

Здесь наши вечеринки оспаривают то, что используют или используют. Anpropic утверждает, что он скопировал книги авторов только для одного использования: только для обучения LLMS. Напротив, авторы утверждают, что это делало это, по крайней мере, для двух применений: сначала создать обширную центральную библиотеку потенциально полезного контента, а второе место для обучения конкретных LLM с использованием изменяющихся наборов и подмножеств этого контента-со временем выбирая более хорошо организованные и хорошо экспрессируемые работы для обучения. Авторы также жалуются на то, что изменение формата печати к цифровым показателям само по себе было нарушением, не сокращенным как справедливое использование (OPP. 15, 25). Однако авторы не утверждают, что любые результаты LLM, нарушающие их работы, когда-либо достигли пользователей общедоступной услуги Claude. В этом заказе рассматривается каждый из четырех факторов по очереди, указывая на то, как каждый применяется к учебным копиям и к приобретенным и пиратским библиотечным копиям. Это завершается интегрированным анализом.

1. Цель и характер использования.

Для заданного использования, первый фактор рассматривает «Цель и характер использования [AT], в том числе, носит ли [это] коммерческий характер или для некоммерческих образовательных целей». 17 США § 107 (1).

A. Копии, используемые для обучения конкретных LLMS.

Все согласны с тем, что одним вопросом было обучение LLMS для получения текстовых входов и возвращаемых текстовых выходов. Более конкретно, антропический использовал копии авторских прав, защищенных авторским правом для итеративной карты статистических отношений между каждым текстовым фрагментом и каждой последовательности текстовых фрагментов, чтобы завершенный LLM мог получать новые текстовые входы и возвращать новые текстовые выходы, как если бы это было человеческое чтение подсказки и написание ответов. Кроме того, авторы утверждают - и этот приказ воспринимает как должное - что такое обучение влечет за собой «Меморизацию [ing]», работающие «сжатие [ing]» копии этих работ в LLM (Opp. 16–17; см. Opp. Expert Zhao ¶ 74). LLMS «много запоминает [D], как много» (Opp. Exh. 35 на -029109). Несмотря на это, «цель и характер» использования работ для обучения LLMS были преобразующими - впечатляюще. Повторить и быть ясным: авторы не утверждают, что какой -либо вывод LLM, предоставленный пользователям, нарушающим работ авторов. Наша запись показывает наоборот. Пользователи взаимодействовали только с сервисом Claude, которая разместила дополнительное программное обеспечение между пользователем и базовым LLM, чтобы гарантировать, что не достигал результатов, нарушающих правила, никогда не достигал пользователей. Это было похоже на ограничения Google, навязанного тому, сколько фрагментов текста из какой -либо одной книги можно было увидеть каким -либо одним пользователем через службу Google Books, предотвращая превращение его инструмента поиска в инструмент чтения. Google, 804 F.2d в 222. Здесь, если бы результаты, наблюдаемые пользователями, нарушают, у авторов будет другой случай. И если бы результаты когда -либо были нарушаются, авторы могли бы принести такой случай. Но это не этот случай.

Вместо этого авторы оспаривают только входы, а не выходы этих LLMS. Они указывают на полностью обученную LLMS и услугу Claude только для того, чтобы пролить свет на то, как сама тренировка использует копии своих работ, и способы, которыми обслуживание Claude может использоваться для производства еще других работ, которые будут конкурировать с их работами. Этот заказ делает то же самое. Аргументы авторов о том, что использование обучения не является преобразующим, недоступны.

Во -первых, авторы утверждают, что использование работ по обучению основных LLMS Клода было похоже на использование работ для обучения любому человеку для чтения и написания, поэтому авторы должны быть в состоянии исключить антроп из этого использования (оп. 16). Но авторы не могут справедливо исключить кого -либо из использования своих работ для обучения или обучения как такового. Все тоже читают тексты, а затем пишет новые тексты. Им может потребоваться заплатить за получение в руки текст в первую очередь. Но чтобы кто -нибудь платил конкретно за использование книги каждый раз, когда они читают ее, каждый раз, когда они вспоминают ее из памяти, каждый раз, когда они позже опираются на нее, когда пишут новые вещи новыми способами было бы немыслимым. На протяжении веков мы читали и перечитали книги. Мы восхищались, запомнили и усваивали их широкие темы, их существенные моменты и их стилистические решения для повторяющихся проблем с письмом.

Во-вторых, к этому последнему моменту авторы также утверждают, что обучение было предназначено для запоминания творческих элементов их работ-не только своих работ, не защищенных (оп. 17). Но это тот же аргумент. Опять же, LLM Anpropic не воспроизведены для общественности творческие элементы данной работы, ни даже идентифицируемый выразительный стиль одного автора (при условии, что они даже являются авторскими правами). Да, Клод вывел грамматику, композицию и стиль, которые основной LLM дистиллировал из тысяч работ. Но если бы кто-то прочитал всю современную классику из-за их исключительного выражения, запомнить их, а затем подражать сочетания их лучшего письма, это нарушит акт авторского права? Конечно, нет. Авторские права не распространяются на «Метод [S] операции, концепции [s], [или] принципа [s]» «иллюстрировано [] или воплощено в [a] работе». 17 США § 102 (b); См., Например, Nichols v. Universal Pictures Corp., 45 F.2d 119, 120–22 (2d Cir. 1930) (судья выучил руку) (свойства сценической собственности и элементы рассказывания историй); Apple Comput., Inc. против Microsoft Corp., 35 F.3d 1435, 1445 (9th Cir. 1994) («удобные» принципы и элементы дизайна); Swirsky v. Carey, 376 F.3d 841, 848 (9th Cir. 2004) (принципы теории музыки и прогрессии аккордов).

В -третьих, авторы затем утверждают, что компьютеры, тем не менее, не должны разрешать делать то, что делают люди.

Авторы цитируют решение, которое, по -видимому, говорит так же, что OPP. 16–17). Но судья дважды подчеркивал, обсуждая «цель и характер» того, что то, что было обучено, было «не генеративным ИИ (ИИ, который пишет сам новый контент)». Скорее, то, что было обучено - использование собственной системы для вывода мнений суда в ответ на данную юридическую тему - было конкурирующим инструментом ИИ для вывода мнений в суде в ответ на данную юридическую тему. Это не было преобразующим. Томсон Рейтер входит. Центр Gmbh v. Ross Intell. Inc., 765 F. Supp. 3d 382, ​​398 (D. del. 2025) (судья Стефанос Бибас), апелляция, № 25-8018 (3d Cir. 14 апреля 2025 г.).

Лучшим аналогом наших фактов будет обученный инструмент ИИ - использование мнений в суде и трусой, юридических статей и тому подобного - для получения юридических подсказок и реагирования свежими юридическими письмами. И, по фактам, так же, как эти, другой суд вышел в другую сторону. Он нашел справедливое использование. White v. W. Pub. Корпорация, 29 F. Supp. 3d 396, 400 (S.D.N.Y. 2014) (судья Джед Ракофф).

Последнее использовалось достаточно «ортогональным» для всего, что любой владелец авторского права справедливо мог бы ожидать. См. Уорхол, 598 США в 538–40. Таким образом, он может быть освобожден, чтобы переписчик использовал, «продвижение [продвигая] прогресс науки и искусства, не уменьшая стимул для создания». Идентификатор. в 531 (акцент добавлен); См. США Конст. искусство. Я, § 8, кл. 8

Короче говоря, цель и характер использования защищенных авторских прав для обучения LLM для создания нового текста были типично преобразующими. Как и любой читатель, стремящийся стать писателем, LLMS Anthropic обучались на работах, чтобы не участвовать в гонках вперед и повторять и не вытеснить их - но повернуть твердый угол и создать что -то другое. Если этот учебный процесс разумно требовал создания копий в LLM или иным образом, эти копии были вовлечены в преобразующее использование.

Первый фактор способствует справедливому использованию для обучающих копий. Но это не единственное использование.


Продолжить чтениеЗДЕСЬПолем


О серии Hackernoon Legal PDF: мы представляем вам самые важные технические и проницательные документы в суде государственного достояния.

Это дело суда, полученное 25 июня 2025 годаStorage.courtlistener.com, является частью общественного достояния. Созданные судом документы являются произведениями федерального правительства, а в соответствии с законодательством об авторском праве автоматически помещаются в общественное достояние и могут быть разделены без юридических ограничений.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE