Компания OpenAI подтвердила лицензионное соглашение с Ассошиэйтед Пресс (AP) на обучение своих моделей искусственного интеллекта с использованием архива новостных материалов.
Суть соглашения заключается в том, что AP предоставит OpenAI доступ к своей базе текстовых историй для обучения ИИ. В свою очередь, OpenAI предоставит AP свои технологии, что позволит им интегрировать генеративный ИИ в свои рабочие процессы.
OpenAI будет иметь право выуживать данные из архива материалов AP, начиная с 1985 года.
"Генеративный искусственный интеллект - это быстро развивающаяся область с огромными последствиями для новостной индустрии. Мы рады, что OpenAI признает, что основанные на фактах, беспристрастные новостные материалы важны для этой развивающейся технологии, и что они уважают ценность нашей интеллектуальной собственности". сказала Кристин Хайтманн.Старший вице-президент и директор по доходам AP.
Практика использования открытых интернет-данных для обучения систем искусственного интеллекта становится предметом споров. Это, вероятно, приведет к росту популярности подобных частных и спонсируемых сделок.
Большие языковые модели (LLM), на которых работают чат-боты в OpenAI, Google и других компаниях, были обучены на колоссальном количестве данных, собранных из общедоступных интернет-источников.
Сюда входит сторонний контент, например, новостные статьи, записи из Википедии, комментарии из социальных сетей и блогов, взятые без явного разрешения или уведомления авторов.
Это не лишено юридических и этических проблем, поскольку вряд ли все эти данные собираются легально. По крайней мере, обучающие данные ИИ искажают смысл понятий "открытый" и "общедоступный".
Андрес Савицки, профессор права интеллектуальной собственности в Университете Майами, прокомментировал: "Наборы данных содержат много контента, защищенного авторским правом. Правообладатели не одобряют такую эксплуатацию". Нетрудно предположить, что между технологическими компаниями и производителями контента будет заключаться больше сделок, подобных той, что заключила AP, в попытке создать "чистую базу данных". Проблема в том, что наборы данных, необходимых для обучения моделей, настолько огромны, что я сомневаюсь, что удастся получить разрешение от достаточного количества владельцев, чтобы сделать технологию практичной".
На этой неделе Федеральная торговая комиссия США (ФТК) начатые расследования расследование практики OpenAI, связанной с использованием данных для обучения моделей. FTC потребовала от OpenAI документацию, чтобы понять ее стратегии и выявить несоответствия.
OpenAI и AP выразили положительное отношение к партнерству, заявив, что "верят в ответственное создание и использование этих систем искусственного интеллекта".