После недавнего запуска GPT-4 Turbo, последней итерации языковой модели OpenAI, в сообществе ИИ возникла неоднозначная реакция.
Хотя OpenAI превозносит GPT-4 Turbo как более способную и эффективную версию своего предшественника, анекдотические свидетельства пользователей говорят о разностороннем опыте, особенно в областях, требующих высокоуровневых рассуждений и способностей к программированию.
Конкретные данные, полученные в ходе контрольных тестов, только начинают появляться.
В одном из независимых эталонных тестов пользователь оценивал GPT-4 Turbo в сравнении с GPT-4 и GPT-3.5, используя фрагменты из официального теста по чтению SAT 2008-2009 годов.
Результаты показали заметную разницу в производительности:
- GPT-3.5 набрал 690 баллов при 10 неправильных ответах.
- GPT-4 набрал 770 баллов, причем только три неправильных ответа.
- GPT-4 Turbo, протестированный в двух режимах, набрал 740 (5 ошибок) и 730 (6 ошибок) баллов соответственно.
OpenAI утверждает, что GPT4-turbo "лучше", чем GPT4, но я провел собственные тесты и не думаю, что это правда.
Я проверил результаты теста SAT по чтению, который является хорошим эталоном способности к рассуждению. Взял 3 раздела (67 вопросов) из официального теста 2008-2009 годов (шкала 2400) и получил... pic.twitter.com/LzIYS3R9ny
- Джеффри Ванг (@wangzjeff) 7 ноября 2023 года
Другие ранние исследования говорят о другом
Для оценки навыков редактирования кода новой версии было проведено еще одно предварительное тестовое бенчмаркинг-упражнение, использование помощникаинструмент командной строки с открытым исходным кодом, предназначенный для редактирования кода с помощью искусственного интеллекта.
Было обнаружено, что GPT-4 Turbo (GPT-4-1106) демонстрирует более высокие показатели в заданиях на кодирование, что, конечно, отличается от вышеупомянутого теста на естественный язык.
В тесте использовался Aider для взаимодействия между пользователем и моделью GPT-4 при редактировании кода в локальных git-репозиториях. Тест включал в себя выполнение 133 упражнений по кодированию на Python, обеспечивая структурированную и количественную оценку эффективности и точности редактирования кода в модели.
Процесс состоял из двух этапов:
- Aider предоставил модели GPT-4 исходный файл кода, содержащий заглушки функций и описания проблем на естественном языке. Первая реакция модели была направлена непосредственно на редактирование кода.
- Если код не прошел тест, Aider представлял модели вывод об ошибке теста и просил ее исправить код.
GPT-4-1106-Preview results
- Повышение скорости: Модель GPT-4-1106-preview показала заметный прирост скорости обработки данных по сравнению с предшественниками.
- Точность первой попытки: Модель продемонстрировала коэффициент успешности 53% при правильном решении упражнений с первой попытки, что является улучшением по сравнению с коэффициентом успешности 46-47% в предыдущих версиях GPT-4.
- Производительность после коррекции: Получив второй шанс исправить код на основе ошибок тестового набора, новая модель достигла уровня производительности (~62%), аналогичного более старым моделям GPT-4, с коэффициентами успешности от 63 до 64%.
Опыт пользователей в решении задач программирования
Разработчики, использующие GPT-4 Turbo для решения задач, связанных с кодированием, сообщают о неоднозначном опыте.
Многие пользователи X и Reddit отметили снижение способности модели точно следовать инструкциям или эффективно сохранять контекст в сценариях программирования. Некоторые вернулись к использованию GPT-4 после того, как столкнулись с проблемами при работе с новой моделью.
Один из пользователей выразил разочарование на Reddit, заявив: "Да, это довольно плохо. Я запускаю GPT-4 в некоторых сценариях и сохраняю образцы тестов, чтобы убедиться, что они работают одинаково. Все эти тесты провалились с новым GPT-4-preview, и мне пришлось вернуться к старому. Он не может рассуждать правильно".
Другой заметил: "Некоторые ответы просто безумны, из-за них мне хочется отменить подписку".
Анекдоты почти бесконечны: "Я вставил 100 или около того строк кода и просто спросил его о некоторых базовых вещах. Код, который он прислал мне в ответ, полностью отличался от того, что я ему только что показал, и был почти полностью неправильным. Я никогда не видел, чтобы он так сильно галлюцинировал".
К сожалению, я заметил некоторые явные недостатки GPT-4 Turbo по сравнению с GPT-4,
особенно при выполнении инструкций.
Я не единственный в сообществе, кто так считает.
Подробно не тестировал, но надеюсь, что вы примете к сведению и улучшите.
В остальном - сплошное разочарование.- Аугусдин (@augusdin) 12 ноября 2023 года
Несмотря на отзывы пользователей, OpenAI делает акцент на достижениях в GPT-4 TurboВ нем особо отмечается продление срока действия знаний до апреля 2023 года и увеличенное контекстное окно, способное обрабатывать более 300 страниц текста.
OpenAI также отметила оптимизацию производительности модели, что делает ее более экономичной. Однако подробная информация о конкретных методах оптимизации и их влиянии на возможности модели остается ограниченной.
Генеральный директор OpenAI Сэм Альтман объявил, что Turbo была отредактирована сегодня, и попросил пользователей попробовать модель еще раз, признав наличие проблем.
Компания столкнулась с аналогичной критикой в адрес версий GPT-4, которые казались падение производительности с момента выпуска.
OpenAI сталкивается с критикой по поводу цензуры
ChatGPT, разработанный OpenAI, подвергся тщательной проверке на предмет цензуры и возможной политической предвзятости.
Критики утверждают, что модель иногда проявляет тенденцию избегать или искажать определенные темы, особенно те, которые считаются политически чувствительными или спорными.
Такое поведение часто объясняют обучающими данными и правилами модерации, формирующими реакцию ИИ.
Эти рекомендации направлены на предотвращение распространения дезинформации, языка вражды и предвзятого контента, но некоторые пользователи считают, что такой подход ведет к чрезмерной коррекции, что приводит к предполагаемой цензуре или предвзятости в ответах ИИ.
В отличие от, Гроук от xAI был отмечен за его, казалось бы, менее строгий подход к модерации контента.
Пользователи Grok отмечают, что платформа охотнее обсуждает широкий круг тем, включая те, которые могут быть отфильтрованы или более осторожно обработаны ChatGPT.
Компания Grok, вдохновляемая вздорными выходками Элона Маска, рассматривается как "меч" для "проснувшегося ИИ", флагманом которого является ChatGPT.
Подводя итог, можно сказать, что эталонных тестов производительности GPT-4 Turbo сейчас крайне мало, а полагаться на анекдотические отзывы проблематично.
Растущий успех OpenAI поставил компанию под прицел людей, особенно после выхода Grok от xAI и ее противостояния "проснувшемуся ИИ".
Пока что объективно оценить производительность GPT-4 Turbo крайне сложно, но споры о том, действительно ли результаты ChatGPT улучшаются, будут продолжаться.