В последнее время ChatGPT доказал свою многопрофильность, но математические навыки остаются его "ахиллесовой пятой".
Модель GPT-4 покорила экзамены в медицинском колледже, на юридическом факультете и даже справилась с тестом MBA в Уортонской школе при Пенсильванском университете. Результаты на барном экзамене (юридический экзамен в США) достигли 90-го процентиля.
Один большое исследование обнаружили, что ChatGPT превзошел человека в девяти из 32 испытуемых. Достойно восхищения, но ни в коем случае не мирового уровня.
A недавнее исследование Под руководством Дэвида Вуда, профессора бухгалтерского учета в Университете Бригама Янга, проверили мастерство модели в области бухгалтерского учета и выявили вопиющую неэффективность.
Многим это кажется нелогичным. Конечно, ИИ - математическая система - лучше всех справляется с математическими задачами?
В настоящее время это не так. Многие пользователи отмечают, что большие языковые модели (LLM) с трудом справляются с базовыми математическими функциями. Страдают и логические задачи - "мозговые головоломки" легко выбивают ChatGPT из колеи, поскольку модель не может систематически определить правильный ответ.
Профессор Вуд применил уникальный подход к исследованию, обратившись к исследователям в социальных сетях, чтобы привлечь их к участию. Отклик был ошеломляющим: в исследовании приняли участие 327 соавторов из 186 учебных заведений 14 стран. Все они указаны в качестве авторов исследования.
В результате такого подхода на ChatGPT было задано более 27 000 вопросов бухгалтерского экзамена из различных областей и уровней сложности.
Несмотря на разнообразие типов вопросов, охватывающих темы от финансового учета до аудита и от управленческого учета до налогообложения, результаты оказались однозначными. ChatGPT набрал 47,4% - значительно меньше, чем средний балл 76,7%, полученный студентами-людьми.
ИИ продемонстрировал некоторую компетентность в области аудита, но испытывал трудности при решении задач налогового, финансового и управленческого учета.
Чтобы бороться с их плохими математическими способностями, LLM, как Google Bard свести вопросы математического типа к исполняемому коду и обрабатывать его численно, а не как язык, но и это не совсем надежно.
По словам профессора Вуда, "когда эта технология только появилась, все были обеспокоены тем, что студенты могут использовать ее для списывания", - прокомментировал он.
"Но возможности для обмана существовали всегда. Поэтому мы стараемся сосредоточиться на том, что мы можем сделать с помощью этой технологии сейчас, чего не могли сделать раньше, чтобы улучшить процесс преподавания для преподавателей и процесс обучения для студентов. Испытание этой технологии было очень впечатляющим".
Так что, возможно, в следующий раз, когда вы будете подсчитывать свои финансы или выяснять, какие налоги нужно заплатить, лучше не полагаться на ChatGPT, а воспользоваться калькулятором.