Copyleaks сообщает, что некоторые выходы 60% из GPT-3.5 являются плагиатом

25 февраля 2024 года

Исследование Copyleaks показало, что 60% результатов GPT-3.5 от OpenAI имеют признаки плагиата.

Компания Copyleaks, разрабатывающая инструменты для анализа контента на плагиат и ИИ, подчеркивает сомнительную оригинальность и надежность генерируемых ИИ текстов, особенно в свете последних событий. нарушение авторских прав и споры о плагиате. 

В ходе исследования было проанализировано 1045 результатов GPT-3.5, охватывающих 26 академических и творческих дисциплин, включая физику, химию, информатику, психологию, право и гуманитарные науки, но не ограничиваясь ими, при этом каждый результат в среднем состоял из 412 слов.

Выводы Отчет Copyleaks включают в себя следующее:

  • Примерно 59,7% всех сгенерированных GPT-3.5 текстов были признаны в той или иной степени содержащими плагиат.
  • 45,7% результатов содержали точные совпадения с текстом, 27,4% включали незначительные изменения, а 46,5% перефразировали уже существующие источники.
  • Примечательно, что в области компьютерных наук был зафиксирован самый высокий индивидуальный показатель "балла сходства" - около 100%, что свидетельствует о серьезной проблеме в областях, в значительной степени зависящих от технического и специализированного языка.

"Балл сходства" - это собственная метрика, разработанная компанией Copyleaks для количественной оценки степени оригинальности контента. Он объединяет различные факторы, такие как идентичный текст и перефразирование.

Физика показала самый высокий средний балл сходства - 31,3%, психология не сильно отстала - 27,7%, а общие науки - 26,7%. На противоположном конце спектра, Театр имеет самый низкий средний балл - всего 0,9%, за ним следуют Гуманитарные науки - 2,8% и Английский язык - 5,4%.

Разброс оценок сходства по предметам не особенно удивителен. Существует практически неограниченное количество способов интерпретировать пьесу Шекспира и гораздо меньше, например, для анализа устоявшейся математической теоремы.

Алон Ямин, генеральный директор и соучредитель Copyleaks, говорит, что такие предметы, как физика, химия, информатика и психология, требуют более тщательного изучения на предмет плагиата из-за более высоких оценок. 

"Например, физика, химия, математика и психология могут потребовать более глубокого изучения для выявления плагиата, в то время как другие предметы, включая театр и гуманитарные науки, могут потребовать менее тщательной проверки", - говорит Ямин.

Однако преподаватели должны признать, что некоторые предметы естественным образом способствуют получению высоких баллов за сходство.

Ямин также заявил: "Кроме того, полученные данные подчеркивают необходимость внедрения организациями решений, которые позволяют обнаружить наличие контента, созданного искусственным интеллектом, и обеспечить необходимую прозрачность в отношении потенциального плагиата в контенте, созданном искусственным интеллектом".

Это хорошая мысль. Если образовательные организации позволят ИИ составлять и генерировать контент (и некоторые уже), студенты все равно могут быть подвержены плагиату.

Следует также отметить, что оценки за контент, созданный с помощью GPT-4, показали бы более низкие показатели плагиата.

Хотя большая часть контента, генерируемого ИИ, вероятно, все еще создается с помощью GPT-3.5 (потому что он бесплатный), GPT-4, несомненно, более эффективен для создания оригинальных работ.

Однако это создает еще один уровень сложности.

Поскольку GPT-4 является частью платной версии ChatGPT, принятие или поощрение использования ИИ в образовании может дискриминировать пользователей GPT-3.5, если подписка не будет субсидироваться.

Хрупкий баланс

По мере того как инструменты генеративного ИИ внедряются в учебную среду, преподаватели и студенты приходят в замешательство по поводу их использования. 

Компании, занимающиеся анализом контента, такие как Copyleaks и Turnitin, разработали инструменты для обнаружения ИИ, которые предсказывают, когда строка слов может быть сгенерирована ИИ. Однако у них есть очевидные недостатки и риск ложных срабатываний. 

Кроме того, было доказано, что программное обеспечение для обнаружения ИИ отдавайте предпочтение английскому языку носителейТак как в них часто встречается разнообразная лексика и идиомы, что позволяет ИИ-детекторам воспринимать текст как "написанный человеком". 

Ограничить использование технологий искусственного интеллекта в академических кругах будет непросто. Генеративный искусственный интеллект называют идеальным инструментом повышения производительности, и многие утверждают, что если вы можете его использовать, то должны.

Студенты часто утверждают, что если эти инструменты широко распространены в реальном мире, то они должны быть разрешены и в учебных заведениях. 

К тому же, как многие подтвердят, образование - это иногда поиск изобретательных коротких путей для достижения цели.

Неужели вы действительно ожидаете, что студенты оставят генеративный ИИ нетронутым на столе?

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения