Исследование Copyleaks показало, что 60% результатов GPT-3.5 от OpenAI имеют признаки плагиата.
Компания Copyleaks, разрабатывающая инструменты для анализа контента на плагиат и ИИ, подчеркивает сомнительную оригинальность и надежность генерируемых ИИ текстов, особенно в свете последних событий. нарушение авторских прав и споры о плагиате.
В ходе исследования было проанализировано 1045 результатов GPT-3.5, охватывающих 26 академических и творческих дисциплин, включая физику, химию, информатику, психологию, право и гуманитарные науки, но не ограничиваясь ими, при этом каждый результат в среднем состоял из 412 слов.
Выводы Отчет Copyleaks включают в себя следующее:
- Примерно 59,7% всех сгенерированных GPT-3.5 текстов были признаны в той или иной степени содержащими плагиат.
- 45,7% результатов содержали точные совпадения с текстом, 27,4% включали незначительные изменения, а 46,5% перефразировали уже существующие источники.
- Примечательно, что в области компьютерных наук был зафиксирован самый высокий индивидуальный показатель "балла сходства" - около 100%, что свидетельствует о серьезной проблеме в областях, в значительной степени зависящих от технического и специализированного языка.
"Балл сходства" - это собственная метрика, разработанная компанией Copyleaks для количественной оценки степени оригинальности контента. Он объединяет различные факторы, такие как идентичный текст и перефразирование.
Физика показала самый высокий средний балл сходства - 31,3%, психология не сильно отстала - 27,7%, а общие науки - 26,7%. На противоположном конце спектра, Театр имеет самый низкий средний балл - всего 0,9%, за ним следуют Гуманитарные науки - 2,8% и Английский язык - 5,4%.
Разброс оценок сходства по предметам не особенно удивителен. Существует практически неограниченное количество способов интерпретировать пьесу Шекспира и гораздо меньше, например, для анализа устоявшейся математической теоремы.
Алон Ямин, генеральный директор и соучредитель Copyleaks, говорит, что такие предметы, как физика, химия, информатика и психология, требуют более тщательного изучения на предмет плагиата из-за более высоких оценок.
"Например, физика, химия, математика и психология могут потребовать более глубокого изучения для выявления плагиата, в то время как другие предметы, включая театр и гуманитарные науки, могут потребовать менее тщательной проверки", - говорит Ямин.
Однако преподаватели должны признать, что некоторые предметы естественным образом способствуют получению высоких баллов за сходство.
Ямин также заявил: "Кроме того, полученные данные подчеркивают необходимость внедрения организациями решений, которые позволяют обнаружить наличие контента, созданного искусственным интеллектом, и обеспечить необходимую прозрачность в отношении потенциального плагиата в контенте, созданном искусственным интеллектом".
Это хорошая мысль. Если образовательные организации позволят ИИ составлять и генерировать контент (и некоторые уже), студенты все равно могут быть подвержены плагиату.
Следует также отметить, что оценки за контент, созданный с помощью GPT-4, показали бы более низкие показатели плагиата.
Хотя большая часть контента, генерируемого ИИ, вероятно, все еще создается с помощью GPT-3.5 (потому что он бесплатный), GPT-4, несомненно, более эффективен для создания оригинальных работ.
Однако это создает еще один уровень сложности.
Поскольку GPT-4 является частью платной версии ChatGPT, принятие или поощрение использования ИИ в образовании может дискриминировать пользователей GPT-3.5, если подписка не будет субсидироваться.
Хрупкий баланс
По мере того как инструменты генеративного ИИ внедряются в учебную среду, преподаватели и студенты приходят в замешательство по поводу их использования.
Компании, занимающиеся анализом контента, такие как Copyleaks и Turnitin, разработали инструменты для обнаружения ИИ, которые предсказывают, когда строка слов может быть сгенерирована ИИ. Однако у них есть очевидные недостатки и риск ложных срабатываний.
Кроме того, было доказано, что программное обеспечение для обнаружения ИИ отдавайте предпочтение английскому языку носителейТак как в них часто встречается разнообразная лексика и идиомы, что позволяет ИИ-детекторам воспринимать текст как "написанный человеком".
Ограничить использование технологий искусственного интеллекта в академических кругах будет непросто. Генеративный искусственный интеллект называют идеальным инструментом повышения производительности, и многие утверждают, что если вы можете его использовать, то должны.
Студенты часто утверждают, что если эти инструменты широко распространены в реальном мире, то они должны быть разрешены и в учебных заведениях.
К тому же, как многие подтвердят, образование - это иногда поиск изобретательных коротких путей для достижения цели.
Неужели вы действительно ожидаете, что студенты оставят генеративный ИИ нетронутым на столе?