ИИ вращается вокруг данных, но откуда они берутся? Являются ли наборы данных законными и этичными? Как разработчики могут определить это наверняка?
Для обучения моделей машинного обучения, таких как большие языковые модели (LLM), требуются большие объемы текстовых данных.
На таких платформах, как Kaggle, GitHub и Hugging Face, доступны целые стопки наборов данных, но они находятся в правовой и этической серой зоне, в основном из-за вопросов лицензирования и добросовестного использования.
Сайт Инициатива по проверке достоверности данныхСовместными усилиями исследователей ИИ и юристов были изучены тысячи наборов данных, чтобы пролить свет на их истинное происхождение.
Это В центре внимания - более 1800 наборов данных, доступных на таких платформах, как Hugging Face, GitHub и Papers With Code. Эти наборы данных в основном предназначены для тонкой настройки моделей с открытым исходным кодом, таких как Llama-2.
Исследование показало, что примерно 70% наборов данных либо не содержали четкой информации о лицензировании, либо были помечены слишком разрешительными лицензиями.
В условиях явного отсутствия ясности в отношении авторских прав и ограничений на коммерческое использование разработчики ИИ рискуют случайно нарушить закон или авторские права.
Шейн Лонгпре, кандидат наук из MIT Media Lab, возглавивший аудит, подчеркнул, что проблема не связана с хостинговыми платформами, а скорее является системной проблемой сообщества машинного обучения.
2023 год стал свидетелем шквал судебных исков Они направлены на крупных разработчиков ИИ, таких как Meta, Anthropic и OpenAI, которые находятся под сильным давлением, требуя более прозрачной практики сбора данных. Нормативные акты, такие как Закон ЕС об искусственном интеллектеи нацелены именно на это.
Инициатива по проверке достоверности данных позволяет разработчикам машинного обучения изучите наборы проверенных данных здесь. В рамках инициативы также анализируются закономерности в массивах данных, проливая свет на их географическое и институциональное происхождение.
Большинство наборов данных составлено в англоязычных странах Глобального Севера, что подчеркивает социокультурный дисбаланс.
Подробнее об исследовании
Этот масштабный анализ наборов данных позволил выявить системные проблемы, связанные со сбором и распространением данных. Инициатива также выпустила документ, в котором объяснила свои выводы, опубликовано здесь.
Вот более подробная информация о методах и результатах исследования:
- Анализ наборов данных на предмет происхождения и маркировки: В этом исследовании был проведен систематический аудит более 1800 наборов данных по тонкой настройке с целью тщательного изучения их происхождения, лицензирования и документации.
- Доказательства неправильной маркировки: Результаты исследования выявили разрыв в типах данных, доступных по разным лицензиям, и последствия для юридической интерпретации авторского права и добросовестного использования. Выявлен высокий уровень неправильной классификации лицензий: более 72% наборов данных не указывали лицензию, а в тех, что указывали, было допущено 50% ошибок.
- Ненадежное подтверждение данных: Исследование привлекает внимание к проблеме ненадежного происхождения данных, подчеркивая необходимость стандартов для отслеживания родословной данных, обеспечения надлежащего присвоения авторства и поощрения ответственного использования данных.
- Географическое распространение: В исследовании подчеркивается серьезная нехватка представительства и атрибуции наборов данных, происходящих с Глобального Юга. Большинство наборов данных вращаются вокруг английского языка и культурно привязаны к Европе, Северной Америке и англоязычной Океании.
Это исследование выявляет системные и структурные проблемы в том, как создаются, распространяются и используются данные. Данные - важнейший ресурс для ИИ, и, как и природные ресурсы, они ограничены.
Существует опасение, что технология искусственного интеллекта в конечном итоге перерастет существующие наборы данных и, возможно, даже начать потреблять свою собственную продукциюЭто означает, что модели ИИ будут обучаться на основе текстов, созданных ИИ.
Это может привести к снижению качества моделей, а значит, высококачественные, этичные и легальные данные могут стать очень ценными.