Новое исследование баз данных выявляет системные этические и правовые проблемы

26 октября 2023 года

ИИ вращается вокруг данных, но откуда они берутся? Являются ли наборы данных законными и этичными? Как разработчики могут определить это наверняка? 

Для обучения моделей машинного обучения, таких как большие языковые модели (LLM), требуются большие объемы текстовых данных. 

На таких платформах, как Kaggle, GitHub и Hugging Face, доступны целые стопки наборов данных, но они находятся в правовой и этической серой зоне, в основном из-за вопросов лицензирования и добросовестного использования. 

Сайт Инициатива по проверке достоверности данныхСовместными усилиями исследователей ИИ и юристов были изучены тысячи наборов данных, чтобы пролить свет на их истинное происхождение.

Это В центре внимания - более 1800 наборов данных, доступных на таких платформах, как Hugging Face, GitHub и Papers With Code. Эти наборы данных в основном предназначены для тонкой настройки моделей с открытым исходным кодом, таких как Llama-2. 

Исследование показало, что примерно 70% наборов данных либо не содержали четкой информации о лицензировании, либо были помечены слишком разрешительными лицензиями. 

В условиях явного отсутствия ясности в отношении авторских прав и ограничений на коммерческое использование разработчики ИИ рискуют случайно нарушить закон или авторские права.

Шейн Лонгпре, кандидат наук из MIT Media Lab, возглавивший аудит, подчеркнул, что проблема не связана с хостинговыми платформами, а скорее является системной проблемой сообщества машинного обучения.

2023 год стал свидетелем шквал судебных исков Они направлены на крупных разработчиков ИИ, таких как Meta, Anthropic и OpenAI, которые находятся под сильным давлением, требуя более прозрачной практики сбора данных. Нормативные акты, такие как Закон ЕС об искусственном интеллектеи нацелены именно на это. 

Инициатива по проверке достоверности данных позволяет разработчикам машинного обучения изучите наборы проверенных данных здесь. В рамках инициативы также анализируются закономерности в массивах данных, проливая свет на их географическое и институциональное происхождение. 

Большинство наборов данных составлено в англоязычных странах Глобального Севера, что подчеркивает социокультурный дисбаланс. 

Проверка достоверности данных ИИ
В рамках инициативы Data Provenance Initiative было установлено, что наборы данных в основном представляют англоязычные страны и Глобальный Север. Источник: Данные Provenance.org.

Подробнее об исследовании

Этот масштабный анализ наборов данных позволил выявить системные проблемы, связанные со сбором и распространением данных. Инициатива также выпустила документ, в котором объяснила свои выводы, опубликовано здесь.

Вот более подробная информация о методах и результатах исследования:

  1. Анализ наборов данных на предмет происхождения и маркировки: В этом исследовании был проведен систематический аудит более 1800 наборов данных по тонкой настройке с целью тщательного изучения их происхождения, лицензирования и документации. 
  2. Доказательства неправильной маркировки: Результаты исследования выявили разрыв в типах данных, доступных по разным лицензиям, и последствия для юридической интерпретации авторского права и добросовестного использования. Выявлен высокий уровень неправильной классификации лицензий: более 72% наборов данных не указывали лицензию, а в тех, что указывали, было допущено 50% ошибок.
  3. Ненадежное подтверждение данных: Исследование привлекает внимание к проблеме ненадежного происхождения данных, подчеркивая необходимость стандартов для отслеживания родословной данных, обеспечения надлежащего присвоения авторства и поощрения ответственного использования данных. 
  4. Географическое распространение: В исследовании подчеркивается серьезная нехватка представительства и атрибуции наборов данных, происходящих с Глобального Юга. Большинство наборов данных вращаются вокруг английского языка и культурно привязаны к Европе, Северной Америке и англоязычной Океании. 

Это исследование выявляет системные и структурные проблемы в том, как создаются, распространяются и используются данные. Данные - важнейший ресурс для ИИ, и, как и природные ресурсы, они ограничены. 

Существует опасение, что технология искусственного интеллекта в конечном итоге перерастет существующие наборы данных и, возможно, даже начать потреблять свою собственную продукциюЭто означает, что модели ИИ будут обучаться на основе текстов, созданных ИИ. 

Это может привести к снижению качества моделей, а значит, высококачественные, этичные и легальные данные могут стать очень ценными.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения