Ответы на экзаменах, сгенерированные искусственным интеллектом, остаются незамеченными в реальном тесте

27 июня 2024 года

  • Исследователи провели слепое исследование, в ходе которого выяснили, что преподаватели-люди могут обнаружить контент, созданный искусственным интеллектом.
  • Исследователи из Университета Рединга представили задания по психологии, сгенерированные ChatGPT
  • Ответы оставались незамеченными в 94% случаев и получали в среднем более высокие оценки, чем реальные студенты.

Исследователи из Университета Рединга (Великобритания) провели слепое исследование, чтобы выяснить, способны ли преподаватели распознать контент, созданный искусственным интеллектом. Результаты не сулят учителям ничего хорошего.

Переход к дистанционному обучению привел к тому, что многие оценки студентов проводятся вне традиционного пространства письменного экзамена, где за списыванием следит контролер.

Готовый доступ к продвинутым моделям искусственного интеллекта позволил студентам использовать такие инструменты, как ChatGPT, для написания за них курсовых работ или помощи при сдаче онлайн-экзаменов.

Сможет ли умный преподаватель университета определить, что студент использует искусственный интеллект для ответа на вопросы онлайн-экзамена?

Доцент Питер Скарф, один из газета Ведущие авторы исследования говорят: "Многие учебные заведения отказались от традиционных экзаменов, чтобы сделать оценку более инклюзивной. Наше исследование показывает, что понимание того, как ИИ повлияет на целостность образовательных оценок, имеет международное значение".

В ходе "крупнейшего и наиболее надежного слепого исследования такого рода" исследователи представили в систему экзаменов 1001 письменную работу с использованием ИИ по пяти модулям бакалавриата по специальности "Психология".

Отмечающие экзамены были совершенно не в курсе исследования. Таким образом, эксперимент стал своего рода реальным тестом Тьюринга, когда преподаватель, не написавший на работе "Списывай!", верил, что задание написал человек.

Вот как это работает:

  • Представления были созданы с помощью GPT-4.
  • Они представили в общей сложности 33 экзаменационных задания, сгенерированных искусственным интеллектом, по пяти модулям.
  • Исследование включало как вопросы с краткими ответами (SAQ), так и более длинные вопросы, основанные на эссе.
  • На экзаменах нужно было ответить на четыре вопроса из шести, каждый из которых состоял из 200 слов.
  • На экзаменах, основанных на эссе, задания состояли из одного эссе объемом 1500 слов (студенты представляли один ответ из трех или четырех на выбор, в зависимости от модуля).

Исследователи использовали следующие подсказки с ChatGPT для SAQ и эссе, соответственно:

  • "Включая ссылки на учебную литературу, но не отдельный раздел ссылок, ответьте на следующий вопрос в 160 словах: XXX"
  • "Включая ссылки на учебную литературу, но не отдельный раздел ссылок, напишите эссе объемом 2000 слов, отвечающее на следующий вопрос: XXX" (они выбрали 2000 слов, так как ChatGPT обычно занижает количество слов).
  • В каждой подсказке XXX был заменен экзаменационным вопросом.

При подведении итогов 94% работ по искусственному интеллекту остались незамеченными проверяющими. Какие оценки получили работы по искусственному интеллекту?

Исследователи заявили: "Оценки, полученные нашими работами, выполненными ИИ, в среднем были на полбалла выше, чем у реальных студентов. По всем модулям вероятность того, что работы, представленные ИИ, превзойдут случайный выбор из того же количества работ реальных студентов, составляла 83,4%".

Исследователи также отметили, что их подход, вероятно, переоценивает возможность обнаружения использования ИИ в реальных сценариях. Как пояснил доктор Скарф, "если бы реальные студенты списывали на экзамене, они вряд ли стали бы применять такой наивно-очевидный подход, как мы". 

На практике студенты могут использовать ИИ в качестве отправной точки, дорабатывая и персонализируя результаты, что делает обнаружение еще более сложным.

А если этого недостаточно, то, кроме исследователей, которые использовали ИИ, другие студенты, вероятно, использовали ChatGPT для своих ответов. Это означает, что процент обнаружения может быть еще ниже, чем зарегистрированные результаты.

Нет простых решений

Не могли ли преподаватели просто использовать программное обеспечение для обнаружения ИИ? Возможно, но не уверенно, говорится в исследовании. 

Детекторы искусственного интеллекта, подобные тем, что предлагает популярная академическая Платформа для борьбы с плагиатом Turnitinбыли доказаны неточности. 

Кроме того, детекторы искусственного интеллекта рискуют оказаться ложными обвинение неродных носителей английского языка которые с меньшей вероятностью используют определенную лексику, идиомы и т.д., которые ИИ может рассматривать как сигналы о том, что человек пишет.  

Не имея надежных средств обнаружения контента, созданного искусственным интеллектом, руководители образовательных учреждений вынуждены ломать голову. Следует ли преследовать использование ИИ или просто включить его в учебную программу? Должно ли использование ИИ быть нормализовано, как калькулятор?

В целом все сходятся во мнении, что внедрение ИИ в образование не лишено рисков. В худшем случае это грозит эрозией критического мышления и замедлением создания подлинных новых знаний. 

Профессор Карен Юнг предостерегла от возможного "отсева" студентов, рассказывает The GuardianСуществует реальная опасность того, что будущее поколение окажется фактически привязанным к этим машинам, неспособным серьезно мыслить, анализировать или писать без их помощи".

Для борьбы со злоупотреблениями ИИ исследователи из Reading рекомендуют отказаться от проведения экзаменов на дому без контроля и перейти к более контролируемым условиям. Это может включать в себя возврат к традиционным очным экзаменам или разработку новых форматов оценки, устойчивых к ИИ.

Другая возможность - и модель, которую используют некоторые университеты уже следуют - разрабатывает курсы, обучающие студентов критическому и этическому использованию искусственного интеллекта.

Мы также должны признать очевидный недостаток грамотности в области ИИ среди репетиторов, выявленный в этом исследовании. Это выглядит довольно плачевно. 

ChatGPT часто прибегает к определенным "тропам" или шаблонам предложений, которые становятся совершенно очевидными, когда вы часто с ними сталкиваетесь. 

Было бы интересно посмотреть, как в таких же условиях будет работать репетитор, "обученный" распознавать написанное ИИ.

Результаты экзаменов ChatGPT неоднозначны

Исследование Университета Рединга - не первое, в котором проверяются возможности ИИ в академической среде. В различных исследованиях изучалась эффективность ИИ в разных областях и на разных уровнях образования:

  • Медицинские осмотры: Группа детских врачей протестировала ChatGPT (GPT-3.5) на экзамен по неонатально-перинатальной хирургии. ИИ набрал всего 46% правильных ответов, показав лучшие результаты в вопросах о базовой памяти и клинических рассуждениях, но испытывая трудности с мультилогическими рассуждениями. Интересно, что он набрал наибольшее количество баллов (78,5%) в разделе этики.
  • Финансовые экзамены: Исследователи JPMorgan Chase & Co. протестировали GPT-4 на экзамене на звание дипломированного финансового аналитика (CFA). В то время как ChatGPT вряд ли смог бы пройти уровни I и II, GPT-4 показал "приличные шансы", если бы ему дали соответствующую подсказку. Модели с искусственным интеллектом показали хорошие результаты в разделах, посвященных деривативам, альтернативным инвестициям и этике, но столкнулись с трудностями в управлении портфелем и экономике.
  • Экзамены по праву: ChatGPT был протестирован на экзамене по праву и часто получал очень высокие баллы.
  • Стандартизированные тесты: ИИ показал хорошие результаты на экзаменах Graduate Record Examinations (GRE), SAT Reading and Writing, а также на экзаменах Advanced Placement.
  • Университетские курсы: В другом исследовании ChatGPT (модель не указана) сравнивался с 32 темами на уровне диплома, и оказалось, что он превзошел или превзошел студентов. только на 9 из 32 экзаменов.

Таким образом, хотя AI и превосходит всех в некоторых областях, это сильно зависит от предмета и типа теста. 

Вывод таков: если вы студент, который не против списывания, вы можете использовать ChatGPT для получения более высоких оценок с шансом быть пойманным всего 6%. Вам должны понравиться такие шансы.

Как отмечают исследователи, методы оценки студентов должны будут измениться, чтобы сохранить их академическую честность, особенно когда сгенерированный ИИ контент станет сложнее обнаружить.

Исследователи добавили к своей работе юмористическое заключение.

"Если бы мы сказали, что GPT-4 разработал часть этого исследования, провел часть анализа и помог написать рукопись, кроме тех разделов, где мы прямо процитировали GPT-4, какие части рукописи вы бы определили как написанные GPT-4, а не перечисленными авторами?"

Если исследователи "жульничали", используя искусственный интеллект для написания исследования, как бы вы это доказали?

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения